Skip to content

Latest commit

 

History

History
15 lines (14 loc) · 1.6 KB

solution.md

File metadata and controls

15 lines (14 loc) · 1.6 KB

Подробное решение

Решение тестового задания выполнялось в следующие этапы:

  1. Составление DataSet'а (выполнено в этом файле)
    • Сбор текстов на казахском и русском языках
    • Форматирование и объединение
      • Функции с помощью которых проводилось форматирование опианы в данном модуле
      • Итоговые и промежуточные DataSet'ы можно найти здесь.
  2. Обучение модели (выполнено в данном файле)
    • В качества алгоритма классификации был выбран метод опорных векторов (SVC)
    • Тесты и метрики можно найти в том же файле)
    • Метод "predict" модели принимает list из string'ов и возвращает масссив из 0 и 1, где 1 на i-той позиции массива означает что текст на на i-той позиции переданного list'а написан на казахском, а 0, соответственно, обозначает русский язык.