Skip to content

Распознавание больших файлов разговоров через Yandex SpeechKit

Notifications You must be signed in to change notification settings

popstas/yandex-speechkit-talk-recognition

Repository files navigation

Распознавание больших файлов через Yandex SpeechKit.

Распознавание длинных аудио - документация

Что делает

  1. Конвертирует файл в OGG Opus
  2. Заливает файл на Yandex Object Storage
  3. Отправляет файл на распознавание
  4. Дожидается результата (проверка раз в 10 секунд)

Данные сохраняет в ~/yandex-stt/.

Установка

npm install -g yandex-speechkit-talk-recognition

Зависимости

  • ffmpeg 4.x (3.4 не подойдёт)

Как запустить

  1. Создать сервисный аккаунт, получить API ключ (в документации), вписать его в config.js.
  2. Создать статический ключ, получить Id и Secret
  3. Запустить yandex-stt --file <путь_к_файлу_с_голосом>, создастся конфиг в ~/yandex-stt/config.js.
  4. Заполнить конфиг
  5. Запускать yandex-stt --file <path> или yandex-stt --id abcde`

Стоимость

Распознавание с низким приоритетом (deferred) стоит примерно 15 копеек/минута, грубо говоря, 10 руб/час. Тарифы.

TODO:

  • Права на файлы. У каждой операции должен быть владелец. Он может обновлять файлы
  • Изменение filename
  • Изменение распознанного текста

About

Распознавание больших файлов разговоров через Yandex SpeechKit

Topics

Resources

Stars

Watchers

Forks

Packages

No packages published