RFC: vutd-shovelから音声合成部分を(別リポジトリなどに)分離 #197

phenylshima · 2022-07-17T06:57:38Z

現在vutd-shovelには音声合成部分(openjtalk)が内蔵されています。
このIssueでは、openjtalkをvutd-shovel本体から分離し、HTTPで音声合成サーバーを叩く形式に変更することを提案します。

詳細

speaker.tsでnode-openjtalk-bindingを呼び出す代わりに音声合成サーバーを叩く
- 音声モデルなどのオプションとpreprocessor.tsを通した発話内容を渡す
- 音声合成サーバーは音声合成をして、opusにエンコードして返す
音声合成サーバーは別のリポジトリを建て、(願わくばrustで、無理ならC++で)openjtalkのラッパーとして開発する
音声合成サーバーでもDockerイメージを作成する。ライセンスの問題がなければ音声モデルも辞書も同梱したい

Dockerイメージに入っている辞書が不要になるので、vutd-shovelのDockerイメージが小さくできる
- その代わり新しく作る音声合成サーバーのDockerイメージは大きなものになる
vutd-shovelの実行にパワーが要らなくなるため、「常時起動の非力なサーバー」+「リクエストに応じて起動する強いサーバー」に分割できる
node-openjtalk-binding-discordjsやnode-openjtalk-bindingといった間に挟まっているブラックボックスが減る

今後、openjtalk以外も使えるようになったらいいなあというのもあり、今回提案しました。
まだ結構粗削りなのですが、ここで詰めていけたらと思います。

phenylshima added the enhancement New feature or request label Jul 17, 2022

phenylshima changed the title ~~vutd-shovelから音声合成部分を(別リポジトリなどに)分離~~ RFC: vutd-shovelから音声合成部分を(別リポジトリなどに)分離 Jul 18, 2022