Подробное решение

Решение тестового задания выполнялось в следующие этапы:

Составление DataSet'а (выполнено в этом файле)
- Сбор текстов на казахском и русском языках
  - https://github.com/cambridgeltl/AM2iCo
  - Камал Әлпейісова - Жақсы көру
  - Сағадат Ордашева - Жұмадағы раушан
- Форматирование и объединение
  - Функции с помощью которых проводилось форматирование опианы в данном модуле
  - Итоговые и промежуточные DataSet'ы можно найти здесь.
Обучение модели (выполнено в данном файле)
- В качества алгоритма классификации был выбран метод опорных векторов (SVC)
- Тесты и метрики можно найти в том же файле)
- Метод "predict" модели принимает list из string'ов и возвращает масссив из 0 и 1, где 1 на i-той позиции массива означает что текст на на i-той позиции переданного list'а написан на казахском, а 0, соответственно, обозначает русский язык.

Provide feedback