Skip to content

Latest commit

 

History

History
62 lines (42 loc) · 4.44 KB

TODO.md

File metadata and controls

62 lines (42 loc) · 4.44 KB

Spellcheck

  • Использовать нейросетевой генератор для выбора оптимального варианта?
    • Оценить предложенные спелчекером
    • Оценить вероятность того, что предложенное генератором было превращено в опечатку
    • Поставить в нужную словоформу

Repetitions

  • Тезаурус
    • Словарь синонимов
    • Нужная словоформа
    • Нейросетевой генератор (подменять слово из словаря синонимов и восстанавливать исходное)
  • Нейросеть вместо словаря Тихонова

Важные ошибки

  • Рассогласованность падежей, родов и чисел имен (это постоянно остается при редакторской правке)
  • Нарушение управления глаголов

Еще по стилю

  • Штампы https://litnet.com/ru/blogs/post/10751
  • Ритм абзаца (длина предожения, второстепенные члены, частотность)
  • Легкость чтения (ударения, заменить буквы на категории звуков?)
  • Неоднозначное местоимение. "Пашка шел по улице, сжимая в руках кастет. Может, все же по старинке, - подумал он." Кто "он", Пашка или кастет?
  • Неопределенные слова: "какой-то", "что-то", "как-то" (автор ты или нет, должен знать, какой, что и как!).
  • Олди утверждают, что в романе каждый ПОВ написан разным языком, как и диалоги каждого героя. Не мешало бы проверить.

Техническое

  • Мне не нравится двусмысленность df, когда он загружается из корпуса: зачем ему index и word_id, который всегда такой же?
  • добавить вычленение диалогов из текста:
    • Найти параграфы, являющиеся диалогами.
    • Для каждого токена понять, является ли он частью прямой речи или действием ("сказал он"), либо разметочной информацией (ведущее тире)
    • Понять, по возможности, кто это сказал и кому

TODO для Training Grounds

дока к директ экстрактору - ноут о том, что экстракции по индексу не должно быть и жто правильно (потому что индекс - это индекс конкретно примеров, а значит, с чем это связывать, добавь росто информацию в столбцы!). Воркэраунд - создать колонку дубликат. фидбек в task.run - про энвайронменты (добавить в демо уже наконец про доставку систем и в том числе про энвайронмент рассказать) сделать иммутабельным TFac с помощью copy.deepcopy Как понять, где какая функциональность находится: экстрактор работает со строками, трансформер со столбцами

Креативные доводчики:

Как это сделано? Можно ли повторить? Может ли это быть применено к литературе?