Skip to content

Commit efc94e9

Browse files
author
Ryan Clancy
authored
Add directory tree and md5 hash for collections (#94)
* Add directory tree and md5 hash for collections * Add cw09b, cw12b13, and gov2
1 parent 5b215fd commit efc94e9

12 files changed

+130831
-0
lines changed

collections/core17.md5

+275
Large diffs are not rendered by default.

collections/core17.tree

+313
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,313 @@
1+
NYTcorpus/
2+
├── data
3+
│   ├── 1987
4+
│   │   ├── 01.tgz
5+
│   │   ├── 02.tgz
6+
│   │   ├── 03.tgz
7+
│   │   ├── 04.tgz
8+
│   │   ├── 05.tgz
9+
│   │   ├── 06.tgz
10+
│   │   ├── 07.tgz
11+
│   │   ├── 08.tgz
12+
│   │   ├── 09.tgz
13+
│   │   ├── 10.tgz
14+
│   │   ├── 11.tgz
15+
│   │   └── 12.tgz
16+
│   ├── 1988
17+
│   │   ├── 01.tgz
18+
│   │   ├── 02.tgz
19+
│   │   ├── 03.tgz
20+
│   │   ├── 04.tgz
21+
│   │   ├── 05.tgz
22+
│   │   ├── 06.tgz
23+
│   │   ├── 07.tgz
24+
│   │   ├── 08.tgz
25+
│   │   ├── 09.tgz
26+
│   │   ├── 10.tgz
27+
│   │   ├── 11.tgz
28+
│   │   └── 12.tgz
29+
│   ├── 1989
30+
│   │   ├── 01.tgz
31+
│   │   ├── 02.tgz
32+
│   │   ├── 03.tgz
33+
│   │   ├── 04.tgz
34+
│   │   ├── 05.tgz
35+
│   │   ├── 06.tgz
36+
│   │   ├── 07.tgz
37+
│   │   ├── 08.tgz
38+
│   │   ├── 09.tgz
39+
│   │   ├── 10.tgz
40+
│   │   ├── 11.tgz
41+
│   │   └── 12.tgz
42+
│   ├── 1990
43+
│   │   ├── 01.tgz
44+
│   │   ├── 02.tgz
45+
│   │   ├── 03.tgz
46+
│   │   ├── 04.tgz
47+
│   │   ├── 05.tgz
48+
│   │   ├── 06.tgz
49+
│   │   ├── 07.tgz
50+
│   │   ├── 08.tgz
51+
│   │   ├── 09.tgz
52+
│   │   ├── 10.tgz
53+
│   │   ├── 11.tgz
54+
│   │   └── 12.tgz
55+
│   ├── 1991
56+
│   │   ├── 01.tgz
57+
│   │   ├── 02.tgz
58+
│   │   ├── 03.tgz
59+
│   │   ├── 04.tgz
60+
│   │   ├── 05.tgz
61+
│   │   ├── 06.tgz
62+
│   │   ├── 07.tgz
63+
│   │   ├── 08.tgz
64+
│   │   ├── 09.tgz
65+
│   │   ├── 10.tgz
66+
│   │   ├── 11.tgz
67+
│   │   └── 12.tgz
68+
│   ├── 1992
69+
│   │   ├── 01.tgz
70+
│   │   ├── 02.tgz
71+
│   │   ├── 03.tgz
72+
│   │   ├── 04.tgz
73+
│   │   ├── 05.tgz
74+
│   │   ├── 06.tgz
75+
│   │   ├── 07.tgz
76+
│   │   ├── 08.tgz
77+
│   │   ├── 09.tgz
78+
│   │   ├── 10.tgz
79+
│   │   ├── 11.tgz
80+
│   │   └── 12.tgz
81+
│   ├── 1993
82+
│   │   ├── 01.tgz
83+
│   │   ├── 02.tgz
84+
│   │   ├── 03.tgz
85+
│   │   ├── 04.tgz
86+
│   │   ├── 05.tgz
87+
│   │   ├── 06.tgz
88+
│   │   ├── 07.tgz
89+
│   │   ├── 08.tgz
90+
│   │   ├── 09.tgz
91+
│   │   ├── 10.tgz
92+
│   │   ├── 11.tgz
93+
│   │   └── 12.tgz
94+
│   ├── 1994
95+
│   │   ├── 01.tgz
96+
│   │   ├── 02.tgz
97+
│   │   ├── 03.tgz
98+
│   │   ├── 04.tgz
99+
│   │   ├── 05.tgz
100+
│   │   ├── 06.tgz
101+
│   │   ├── 07.tgz
102+
│   │   ├── 08.tgz
103+
│   │   ├── 09.tgz
104+
│   │   ├── 10.tgz
105+
│   │   ├── 11.tgz
106+
│   │   └── 12.tgz
107+
│   ├── 1995
108+
│   │   ├── 01.tgz
109+
│   │   ├── 02.tgz
110+
│   │   ├── 03.tgz
111+
│   │   ├── 04.tgz
112+
│   │   ├── 05.tgz
113+
│   │   ├── 06.tgz
114+
│   │   ├── 07.tgz
115+
│   │   ├── 08.tgz
116+
│   │   ├── 09.tgz
117+
│   │   ├── 10.tgz
118+
│   │   ├── 11.tgz
119+
│   │   └── 12.tgz
120+
│   ├── 1996
121+
│   │   ├── 01.tgz
122+
│   │   ├── 02.tgz
123+
│   │   ├── 03.tgz
124+
│   │   ├── 04.tgz
125+
│   │   ├── 05.tgz
126+
│   │   ├── 06.tgz
127+
│   │   ├── 07.tgz
128+
│   │   ├── 08.tgz
129+
│   │   ├── 09.tgz
130+
│   │   ├── 10.tgz
131+
│   │   ├── 11.tgz
132+
│   │   └── 12.tgz
133+
│   ├── 1997
134+
│   │   ├── 01.tgz
135+
│   │   ├── 02.tgz
136+
│   │   ├── 03.tgz
137+
│   │   ├── 04.tgz
138+
│   │   ├── 05.tgz
139+
│   │   ├── 06.tgz
140+
│   │   ├── 07.tgz
141+
│   │   ├── 08.tgz
142+
│   │   ├── 09.tgz
143+
│   │   ├── 10.tgz
144+
│   │   ├── 11.tgz
145+
│   │   └── 12.tgz
146+
│   ├── 1998
147+
│   │   ├── 01.tgz
148+
│   │   ├── 02.tgz
149+
│   │   ├── 03.tgz
150+
│   │   ├── 04.tgz
151+
│   │   ├── 05.tgz
152+
│   │   ├── 06.tgz
153+
│   │   ├── 07.tgz
154+
│   │   ├── 08.tgz
155+
│   │   ├── 09.tgz
156+
│   │   ├── 10.tgz
157+
│   │   ├── 11.tgz
158+
│   │   └── 12.tgz
159+
│   ├── 1999
160+
│   │   ├── 01.tgz
161+
│   │   ├── 02.tgz
162+
│   │   ├── 03.tgz
163+
│   │   ├── 04.tgz
164+
│   │   ├── 05.tgz
165+
│   │   ├── 06.tgz
166+
│   │   ├── 07.tgz
167+
│   │   ├── 08.tgz
168+
│   │   ├── 09.tgz
169+
│   │   ├── 10.tgz
170+
│   │   ├── 11.tgz
171+
│   │   └── 12.tgz
172+
│   ├── 2000
173+
│   │   ├── 01.tgz
174+
│   │   ├── 02.tgz
175+
│   │   ├── 03.tgz
176+
│   │   ├── 04.tgz
177+
│   │   ├── 05.tgz
178+
│   │   ├── 06.tgz
179+
│   │   ├── 07.tgz
180+
│   │   ├── 08.tgz
181+
│   │   ├── 09.tgz
182+
│   │   ├── 10.tgz
183+
│   │   ├── 11.tgz
184+
│   │   └── 12.tgz
185+
│   ├── 2001
186+
│   │   ├── 01.tgz
187+
│   │   ├── 02.tgz
188+
│   │   ├── 03.tgz
189+
│   │   ├── 04.tgz
190+
│   │   ├── 05.tgz
191+
│   │   ├── 06.tgz
192+
│   │   ├── 07.tgz
193+
│   │   ├── 08.tgz
194+
│   │   ├── 09.tgz
195+
│   │   ├── 10.tgz
196+
│   │   ├── 11.tgz
197+
│   │   └── 12.tgz
198+
│   ├── 2002
199+
│   │   ├── 01.tgz
200+
│   │   ├── 02.tgz
201+
│   │   ├── 03.tgz
202+
│   │   ├── 04.tgz
203+
│   │   ├── 05.tgz
204+
│   │   ├── 06.tgz
205+
│   │   ├── 07.tgz
206+
│   │   ├── 08.tgz
207+
│   │   ├── 09.tgz
208+
│   │   ├── 10.tgz
209+
│   │   ├── 11.tgz
210+
│   │   └── 12.tgz
211+
│   ├── 2003
212+
│   │   ├── 01.tgz
213+
│   │   ├── 02.tgz
214+
│   │   ├── 03.tgz
215+
│   │   ├── 04.tgz
216+
│   │   ├── 05.tgz
217+
│   │   ├── 06.tgz
218+
│   │   ├── 07.tgz
219+
│   │   ├── 08.tgz
220+
│   │   ├── 09.tgz
221+
│   │   ├── 10.tgz
222+
│   │   ├── 11.tgz
223+
│   │   └── 12.tgz
224+
│   ├── 2004
225+
│   │   ├── 01.tgz
226+
│   │   ├── 02.tgz
227+
│   │   ├── 03.tgz
228+
│   │   ├── 04.tgz
229+
│   │   ├── 05.tgz
230+
│   │   ├── 06.tgz
231+
│   │   ├── 07.tgz
232+
│   │   ├── 08.tgz
233+
│   │   ├── 09.tgz
234+
│   │   ├── 10.tgz
235+
│   │   ├── 11.tgz
236+
│   │   └── 12.tgz
237+
│   ├── 2005
238+
│   │   ├── 01.tgz
239+
│   │   ├── 02.tgz
240+
│   │   ├── 03.tgz
241+
│   │   ├── 04.tgz
242+
│   │   ├── 05.tgz
243+
│   │   ├── 06.tgz
244+
│   │   ├── 07.tgz
245+
│   │   ├── 08.tgz
246+
│   │   ├── 09.tgz
247+
│   │   ├── 10.tgz
248+
│   │   ├── 11.tgz
249+
│   │   └── 12.tgz
250+
│   ├── 2006
251+
│   │   ├── 01.tgz
252+
│   │   ├── 02.tgz
253+
│   │   ├── 03.tgz
254+
│   │   ├── 04.tgz
255+
│   │   ├── 05.tgz
256+
│   │   ├── 06.tgz
257+
│   │   ├── 07.tgz
258+
│   │   ├── 08.tgz
259+
│   │   ├── 09.tgz
260+
│   │   ├── 10.tgz
261+
│   │   ├── 11.tgz
262+
│   │   └── 12.tgz
263+
│   └── 2007
264+
│   ├── 01.tgz
265+
│   ├── 02.tgz
266+
│   ├── 03.tgz
267+
│   ├── 04.tgz
268+
│   ├── 05.tgz
269+
│   └── 06.tgz
270+
├── docs
271+
│   ├── README
272+
│   ├── file.tbl
273+
│   ├── new_york_times_annotated_corpus.pdf
274+
│   └── nyt_corpus_overview.pdf
275+
├── dtd
276+
│   ├── nitf-3-3-ruby-include.dtd
277+
│   ├── nitf-3-3.dtd
278+
│   └── xhtml-ruby-1.mod
279+
├── index.html
280+
└── tools
281+
├── APACHE-LICENSE-2.0.txt
282+
├── build
283+
│   └── timestools.jar
284+
├── build.xml
285+
├── docs
286+
│   ├── allclasses-frame.html
287+
│   ├── allclasses-noframe.html
288+
│   ├── com
289+
│   │   └── nytlabs
290+
│   │   └── corpus
291+
│   │   ├── NYTCorpusDocument.html
292+
│   │   ├── NYTCorpusDocumentParser.html
293+
│   │   ├── package-frame.html
294+
│   │   ├── package-summary.html
295+
│   │   └── package-tree.html
296+
│   ├── constant-values.html
297+
│   ├── deprecated-list.html
298+
│   ├── help-doc.html
299+
│   ├── index-all.html
300+
│   ├── index.html
301+
│   ├── overview-tree.html
302+
│   ├── package-list
303+
│   ├── resources
304+
│   │   └── inherit.gif
305+
│   └── stylesheet.css
306+
└── src
307+
└── com
308+
└── nytlabs
309+
└── corpus
310+
├── NYTCorpusDocument.java
311+
└── NYTCorpusDocumentParser.java
312+
313+
35 directories, 275 files

collections/core18.md5

+6
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,6 @@
1+
d8b61c88c429bb2ba155cf0c5277fd4f WashingtonPost.v2/MD5SUMS
2+
c7c566366d05cb9daa716245fbe61cdd WashingtonPost.v2/README.md
3+
c71c8a6b54efbf6cadce83f01c051de8 WashingtonPost.v2/data/TREC_Washington_Post_collection.v2.jl
4+
6ec5b1c8098e2ca075bda7592699c3e5 WashingtonPost.v2/scripts/wapo-docids-dupes
5+
b5ae4418822192577d8401df098ba8ec WashingtonPost.v2/scripts/wapo-print-docids.py
6+
a17b9f344042b18ad557c21fb8014f54 WashingtonPost.v2/scripts/wapo-remove-exact-duplicates.py

collections/core18.tree

+11
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,11 @@
1+
WashingtonPost.v2/
2+
├── MD5SUMS
3+
├── README.md
4+
├── data
5+
│   └── TREC_Washington_Post_collection.v2.jl
6+
└── scripts
7+
├── wapo-docids-dupes
8+
├── wapo-print-docids.py
9+
└── wapo-remove-exact-duplicates.py
10+
11+
2 directories, 6 files

0 commit comments

Comments
 (0)