Этот репозиторий содержит:
- Файл all.html, полученный из файла all.docx функцией "Save as HTML" в Microsoft Word.
- Файл names.txt, полученный OCR-распознаванием Приложения «Имена собственные» к 6-му изданию словаря Зализняка с последующими ручными правками.
- Консольную программу на языке C#, которая преобразует эти два файла в html/txt, исправляя ошибки в all.html (см. функцию CorrectHtml()).
Так как в исходном файле all.docx обнаружилось много ошибок (и еще не все выловлены), для их исправления понадобился специальный процесс.
Можно было просто вносить исправления в all.docx, но!
- Файлы .docx не версионируются системой git, т.е. сравнить две версии было бы проблематично.
- Функция "Save as HTML" занимает существенное время (как и просто открытие файла all.docx в Word), что замедляет весь процесс.
Можно было бы вносить правки в all.html, но он по сути страдает от тех же недостатков: хоть он формально и является текстовым файлом и теоретически его можно хранить в git и сравнивать версии, из-за его размера на практике это не работает.
Поэтому было единожды сделано преобразование all.docx -> all.html и написана программа, которая из него генерирует удобочитаемые текстовые или HTML файлы.
Генерируемые программой файлы сохраняются в репозитории zalizniak-2010. При внесении правок в репозиторий zalizniak-2010 аналогичные правки вносятся в функцию исправления ошибок CorrectHtml().
Файл конфигурации (имя которого является единственным аргументом командной строки) задает, в каком виде сохраняются выходные файлы (HTML или текст, одним файлом или набором файлов от А.txt до Я.txt).
- all.html, names.txt: CC-BY-NC
- All other files: MIT