Skip to content

Преобразует гранки Елены Гришиной из docx в html/txt, исправляя ошибки

Notifications You must be signed in to change notification settings

gramdict/docx2html

Repository files navigation

docx2html

Этот репозиторий содержит:

  1. Файл all.html, полученный из файла all.docx функцией "Save as HTML" в Microsoft Word.
  2. Файл names.txt, полученный OCR-распознаванием Приложения «Имена собственные» к 6-му изданию словаря Зализняка с последующими ручными правками.
  3. Консольную программу на языке C#, которая преобразует эти два файла в html/txt, исправляя ошибки в all.html (см. функцию CorrectHtml()).

Рабочий процесс

Так как в исходном файле all.docx обнаружилось много ошибок (и еще не все выловлены), для их исправления понадобился специальный процесс.

Можно было просто вносить исправления в all.docx, но!

  1. Файлы .docx не версионируются системой git, т.е. сравнить две версии было бы проблематично.
  2. Функция "Save as HTML" занимает существенное время (как и просто открытие файла all.docx в Word), что замедляет весь процесс.

Можно было бы вносить правки в all.html, но он по сути страдает от тех же недостатков: хоть он формально и является текстовым файлом и теоретически его можно хранить в git и сравнивать версии, из-за его размера на практике это не работает.

Поэтому было единожды сделано преобразование all.docx -> all.html и написана программа, которая из него генерирует удобочитаемые текстовые или HTML файлы.

Генерируемые программой файлы сохраняются в репозитории zalizniak-2010. При внесении правок в репозиторий zalizniak-2010 аналогичные правки вносятся в функцию исправления ошибок CorrectHtml().

Файл конфигурации (имя которого является единственным аргументом командной строки) задает, в каком виде сохраняются выходные файлы (HTML или текст, одним файлом или набором файлов от А.txt до Я.txt).

Licensing

  1. all.html, names.txt: CC-BY-NC
  2. All other files: MIT

About

Преобразует гранки Елены Гришиной из docx в html/txt, исправляя ошибки

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published