Распознавание больших файлов через Yandex SpeechKit.
Распознавание длинных аудио - документация
- Конвертирует файл в OGG Opus
- Заливает файл на Yandex Object Storage
- Отправляет файл на распознавание
- Дожидается результата (проверка раз в 10 секунд)
Данные сохраняет в ~/yandex-stt/
.
npm install -g yandex-speechkit-talk-recognition
- ffmpeg 4.x (3.4 не подойдёт)
- Создать сервисный аккаунт, получить API ключ (в документации), вписать его в
config.js
. - Создать статический ключ, получить Id и Secret
- Запустить
yandex-stt --file <путь_к_файлу_с_голосом>
, создастся конфиг в~/yandex-stt/config.js
. - Заполнить конфиг
- Запускать
yandex-stt --file <path>
или yandex-stt --id abcde`
Распознавание с низким приоритетом (deferred) стоит примерно 15 копеек/минута, грубо говоря, 10 руб/час. Тарифы.
- Права на файлы. У каждой операции должен быть владелец. Он может обновлять файлы
- Изменение filename
- Изменение распознанного текста