Решение тестового задания выполнялось в следующие этапы:
- Составление DataSet'а (выполнено в этом файле)
- Сбор текстов на казахском и русском языках
- https://github.com/cambridgeltl/AM2iCo
- Камал Әлпейісова - Жақсы көру
- Сағадат Ордашева - Жұмадағы раушан
- Форматирование и объединение
- Сбор текстов на казахском и русском языках
- Обучение модели (выполнено в данном файле)
- В качества алгоритма классификации был выбран метод опорных векторов (SVC)
- Тесты и метрики можно найти в том же файле)
- Метод "predict" модели принимает list из string'ов и возвращает масссив из 0 и 1, где 1 на i-той позиции массива означает что текст на на i-той позиции переданного list'а написан на казахском, а 0, соответственно, обозначает русский язык.