File tree 12 files changed +130831
-0
lines changed
12 files changed +130831
-0
lines changed Load Diff Large diffs are not rendered by default.
Original file line number Diff line number Diff line change
1
+ NYTcorpus/
2
+ ├── data
3
+ │ ├── 1987
4
+ │ │ ├── 01.tgz
5
+ │ │ ├── 02.tgz
6
+ │ │ ├── 03.tgz
7
+ │ │ ├── 04.tgz
8
+ │ │ ├── 05.tgz
9
+ │ │ ├── 06.tgz
10
+ │ │ ├── 07.tgz
11
+ │ │ ├── 08.tgz
12
+ │ │ ├── 09.tgz
13
+ │ │ ├── 10.tgz
14
+ │ │ ├── 11.tgz
15
+ │ │ └── 12.tgz
16
+ │ ├── 1988
17
+ │ │ ├── 01.tgz
18
+ │ │ ├── 02.tgz
19
+ │ │ ├── 03.tgz
20
+ │ │ ├── 04.tgz
21
+ │ │ ├── 05.tgz
22
+ │ │ ├── 06.tgz
23
+ │ │ ├── 07.tgz
24
+ │ │ ├── 08.tgz
25
+ │ │ ├── 09.tgz
26
+ │ │ ├── 10.tgz
27
+ │ │ ├── 11.tgz
28
+ │ │ └── 12.tgz
29
+ │ ├── 1989
30
+ │ │ ├── 01.tgz
31
+ │ │ ├── 02.tgz
32
+ │ │ ├── 03.tgz
33
+ │ │ ├── 04.tgz
34
+ │ │ ├── 05.tgz
35
+ │ │ ├── 06.tgz
36
+ │ │ ├── 07.tgz
37
+ │ │ ├── 08.tgz
38
+ │ │ ├── 09.tgz
39
+ │ │ ├── 10.tgz
40
+ │ │ ├── 11.tgz
41
+ │ │ └── 12.tgz
42
+ │ ├── 1990
43
+ │ │ ├── 01.tgz
44
+ │ │ ├── 02.tgz
45
+ │ │ ├── 03.tgz
46
+ │ │ ├── 04.tgz
47
+ │ │ ├── 05.tgz
48
+ │ │ ├── 06.tgz
49
+ │ │ ├── 07.tgz
50
+ │ │ ├── 08.tgz
51
+ │ │ ├── 09.tgz
52
+ │ │ ├── 10.tgz
53
+ │ │ ├── 11.tgz
54
+ │ │ └── 12.tgz
55
+ │ ├── 1991
56
+ │ │ ├── 01.tgz
57
+ │ │ ├── 02.tgz
58
+ │ │ ├── 03.tgz
59
+ │ │ ├── 04.tgz
60
+ │ │ ├── 05.tgz
61
+ │ │ ├── 06.tgz
62
+ │ │ ├── 07.tgz
63
+ │ │ ├── 08.tgz
64
+ │ │ ├── 09.tgz
65
+ │ │ ├── 10.tgz
66
+ │ │ ├── 11.tgz
67
+ │ │ └── 12.tgz
68
+ │ ├── 1992
69
+ │ │ ├── 01.tgz
70
+ │ │ ├── 02.tgz
71
+ │ │ ├── 03.tgz
72
+ │ │ ├── 04.tgz
73
+ │ │ ├── 05.tgz
74
+ │ │ ├── 06.tgz
75
+ │ │ ├── 07.tgz
76
+ │ │ ├── 08.tgz
77
+ │ │ ├── 09.tgz
78
+ │ │ ├── 10.tgz
79
+ │ │ ├── 11.tgz
80
+ │ │ └── 12.tgz
81
+ │ ├── 1993
82
+ │ │ ├── 01.tgz
83
+ │ │ ├── 02.tgz
84
+ │ │ ├── 03.tgz
85
+ │ │ ├── 04.tgz
86
+ │ │ ├── 05.tgz
87
+ │ │ ├── 06.tgz
88
+ │ │ ├── 07.tgz
89
+ │ │ ├── 08.tgz
90
+ │ │ ├── 09.tgz
91
+ │ │ ├── 10.tgz
92
+ │ │ ├── 11.tgz
93
+ │ │ └── 12.tgz
94
+ │ ├── 1994
95
+ │ │ ├── 01.tgz
96
+ │ │ ├── 02.tgz
97
+ │ │ ├── 03.tgz
98
+ │ │ ├── 04.tgz
99
+ │ │ ├── 05.tgz
100
+ │ │ ├── 06.tgz
101
+ │ │ ├── 07.tgz
102
+ │ │ ├── 08.tgz
103
+ │ │ ├── 09.tgz
104
+ │ │ ├── 10.tgz
105
+ │ │ ├── 11.tgz
106
+ │ │ └── 12.tgz
107
+ │ ├── 1995
108
+ │ │ ├── 01.tgz
109
+ │ │ ├── 02.tgz
110
+ │ │ ├── 03.tgz
111
+ │ │ ├── 04.tgz
112
+ │ │ ├── 05.tgz
113
+ │ │ ├── 06.tgz
114
+ │ │ ├── 07.tgz
115
+ │ │ ├── 08.tgz
116
+ │ │ ├── 09.tgz
117
+ │ │ ├── 10.tgz
118
+ │ │ ├── 11.tgz
119
+ │ │ └── 12.tgz
120
+ │ ├── 1996
121
+ │ │ ├── 01.tgz
122
+ │ │ ├── 02.tgz
123
+ │ │ ├── 03.tgz
124
+ │ │ ├── 04.tgz
125
+ │ │ ├── 05.tgz
126
+ │ │ ├── 06.tgz
127
+ │ │ ├── 07.tgz
128
+ │ │ ├── 08.tgz
129
+ │ │ ├── 09.tgz
130
+ │ │ ├── 10.tgz
131
+ │ │ ├── 11.tgz
132
+ │ │ └── 12.tgz
133
+ │ ├── 1997
134
+ │ │ ├── 01.tgz
135
+ │ │ ├── 02.tgz
136
+ │ │ ├── 03.tgz
137
+ │ │ ├── 04.tgz
138
+ │ │ ├── 05.tgz
139
+ │ │ ├── 06.tgz
140
+ │ │ ├── 07.tgz
141
+ │ │ ├── 08.tgz
142
+ │ │ ├── 09.tgz
143
+ │ │ ├── 10.tgz
144
+ │ │ ├── 11.tgz
145
+ │ │ └── 12.tgz
146
+ │ ├── 1998
147
+ │ │ ├── 01.tgz
148
+ │ │ ├── 02.tgz
149
+ │ │ ├── 03.tgz
150
+ │ │ ├── 04.tgz
151
+ │ │ ├── 05.tgz
152
+ │ │ ├── 06.tgz
153
+ │ │ ├── 07.tgz
154
+ │ │ ├── 08.tgz
155
+ │ │ ├── 09.tgz
156
+ │ │ ├── 10.tgz
157
+ │ │ ├── 11.tgz
158
+ │ │ └── 12.tgz
159
+ │ ├── 1999
160
+ │ │ ├── 01.tgz
161
+ │ │ ├── 02.tgz
162
+ │ │ ├── 03.tgz
163
+ │ │ ├── 04.tgz
164
+ │ │ ├── 05.tgz
165
+ │ │ ├── 06.tgz
166
+ │ │ ├── 07.tgz
167
+ │ │ ├── 08.tgz
168
+ │ │ ├── 09.tgz
169
+ │ │ ├── 10.tgz
170
+ │ │ ├── 11.tgz
171
+ │ │ └── 12.tgz
172
+ │ ├── 2000
173
+ │ │ ├── 01.tgz
174
+ │ │ ├── 02.tgz
175
+ │ │ ├── 03.tgz
176
+ │ │ ├── 04.tgz
177
+ │ │ ├── 05.tgz
178
+ │ │ ├── 06.tgz
179
+ │ │ ├── 07.tgz
180
+ │ │ ├── 08.tgz
181
+ │ │ ├── 09.tgz
182
+ │ │ ├── 10.tgz
183
+ │ │ ├── 11.tgz
184
+ │ │ └── 12.tgz
185
+ │ ├── 2001
186
+ │ │ ├── 01.tgz
187
+ │ │ ├── 02.tgz
188
+ │ │ ├── 03.tgz
189
+ │ │ ├── 04.tgz
190
+ │ │ ├── 05.tgz
191
+ │ │ ├── 06.tgz
192
+ │ │ ├── 07.tgz
193
+ │ │ ├── 08.tgz
194
+ │ │ ├── 09.tgz
195
+ │ │ ├── 10.tgz
196
+ │ │ ├── 11.tgz
197
+ │ │ └── 12.tgz
198
+ │ ├── 2002
199
+ │ │ ├── 01.tgz
200
+ │ │ ├── 02.tgz
201
+ │ │ ├── 03.tgz
202
+ │ │ ├── 04.tgz
203
+ │ │ ├── 05.tgz
204
+ │ │ ├── 06.tgz
205
+ │ │ ├── 07.tgz
206
+ │ │ ├── 08.tgz
207
+ │ │ ├── 09.tgz
208
+ │ │ ├── 10.tgz
209
+ │ │ ├── 11.tgz
210
+ │ │ └── 12.tgz
211
+ │ ├── 2003
212
+ │ │ ├── 01.tgz
213
+ │ │ ├── 02.tgz
214
+ │ │ ├── 03.tgz
215
+ │ │ ├── 04.tgz
216
+ │ │ ├── 05.tgz
217
+ │ │ ├── 06.tgz
218
+ │ │ ├── 07.tgz
219
+ │ │ ├── 08.tgz
220
+ │ │ ├── 09.tgz
221
+ │ │ ├── 10.tgz
222
+ │ │ ├── 11.tgz
223
+ │ │ └── 12.tgz
224
+ │ ├── 2004
225
+ │ │ ├── 01.tgz
226
+ │ │ ├── 02.tgz
227
+ │ │ ├── 03.tgz
228
+ │ │ ├── 04.tgz
229
+ │ │ ├── 05.tgz
230
+ │ │ ├── 06.tgz
231
+ │ │ ├── 07.tgz
232
+ │ │ ├── 08.tgz
233
+ │ │ ├── 09.tgz
234
+ │ │ ├── 10.tgz
235
+ │ │ ├── 11.tgz
236
+ │ │ └── 12.tgz
237
+ │ ├── 2005
238
+ │ │ ├── 01.tgz
239
+ │ │ ├── 02.tgz
240
+ │ │ ├── 03.tgz
241
+ │ │ ├── 04.tgz
242
+ │ │ ├── 05.tgz
243
+ │ │ ├── 06.tgz
244
+ │ │ ├── 07.tgz
245
+ │ │ ├── 08.tgz
246
+ │ │ ├── 09.tgz
247
+ │ │ ├── 10.tgz
248
+ │ │ ├── 11.tgz
249
+ │ │ └── 12.tgz
250
+ │ ├── 2006
251
+ │ │ ├── 01.tgz
252
+ │ │ ├── 02.tgz
253
+ │ │ ├── 03.tgz
254
+ │ │ ├── 04.tgz
255
+ │ │ ├── 05.tgz
256
+ │ │ ├── 06.tgz
257
+ │ │ ├── 07.tgz
258
+ │ │ ├── 08.tgz
259
+ │ │ ├── 09.tgz
260
+ │ │ ├── 10.tgz
261
+ │ │ ├── 11.tgz
262
+ │ │ └── 12.tgz
263
+ │ └── 2007
264
+ │ ├── 01.tgz
265
+ │ ├── 02.tgz
266
+ │ ├── 03.tgz
267
+ │ ├── 04.tgz
268
+ │ ├── 05.tgz
269
+ │ └── 06.tgz
270
+ ├── docs
271
+ │ ├── README
272
+ │ ├── file.tbl
273
+ │ ├── new_york_times_annotated_corpus.pdf
274
+ │ └── nyt_corpus_overview.pdf
275
+ ├── dtd
276
+ │ ├── nitf-3-3-ruby-include.dtd
277
+ │ ├── nitf-3-3.dtd
278
+ │ └── xhtml-ruby-1.mod
279
+ ├── index.html
280
+ └── tools
281
+ ├── APACHE-LICENSE-2.0.txt
282
+ ├── build
283
+ │ └── timestools.jar
284
+ ├── build.xml
285
+ ├── docs
286
+ │ ├── allclasses-frame.html
287
+ │ ├── allclasses-noframe.html
288
+ │ ├── com
289
+ │ │ └── nytlabs
290
+ │ │ └── corpus
291
+ │ │ ├── NYTCorpusDocument.html
292
+ │ │ ├── NYTCorpusDocumentParser.html
293
+ │ │ ├── package-frame.html
294
+ │ │ ├── package-summary.html
295
+ │ │ └── package-tree.html
296
+ │ ├── constant-values.html
297
+ │ ├── deprecated-list.html
298
+ │ ├── help-doc.html
299
+ │ ├── index-all.html
300
+ │ ├── index.html
301
+ │ ├── overview-tree.html
302
+ │ ├── package-list
303
+ │ ├── resources
304
+ │ │ └── inherit.gif
305
+ │ └── stylesheet.css
306
+ └── src
307
+ └── com
308
+ └── nytlabs
309
+ └── corpus
310
+ ├── NYTCorpusDocument.java
311
+ └── NYTCorpusDocumentParser.java
312
+
313
+ 35 directories, 275 files
Original file line number Diff line number Diff line change
1
+ d8b61c88c429bb2ba155cf0c5277fd4f WashingtonPost.v2/MD5SUMS
2
+ c7c566366d05cb9daa716245fbe61cdd WashingtonPost.v2/README.md
3
+ c71c8a6b54efbf6cadce83f01c051de8 WashingtonPost.v2/data/TREC_Washington_Post_collection.v2.jl
4
+ 6ec5b1c8098e2ca075bda7592699c3e5 WashingtonPost.v2/scripts/wapo-docids-dupes
5
+ b5ae4418822192577d8401df098ba8ec WashingtonPost.v2/scripts/wapo-print-docids.py
6
+ a17b9f344042b18ad557c21fb8014f54 WashingtonPost.v2/scripts/wapo-remove-exact-duplicates.py
Original file line number Diff line number Diff line change
1
+ WashingtonPost.v2/
2
+ ├── MD5SUMS
3
+ ├── README.md
4
+ ├── data
5
+ │ └── TREC_Washington_Post_collection.v2.jl
6
+ └── scripts
7
+ ├── wapo-docids-dupes
8
+ ├── wapo-print-docids.py
9
+ └── wapo-remove-exact-duplicates.py
10
+
11
+ 2 directories, 6 files
You can’t perform that action at this time.
0 commit comments