这个 Repo 包含了一些用于处理音频的脚本. 主要包含以下功能:
- 视频/音频转 wav
- 音频人声分离
- 音频自动切片
- 音频响度匹配
- 音频数据统计(支持判断音频长度)
- 音频重采样
- 音频打标 (.lab)
- 音频打标 FunASR(使用
--model-type funasr
开启, 详细使用方法可查看代码) - 音频打标 WhisperX
- .lab 标注合并为 .list 文件 (示例:
fap merge-lab ./dataset list.txt "{PATH}|spkname|JP|{TEXT}"
)
([ ] 表示未完成, [x] 表示已完成)
本代码已在 Ubuntu 22.04 / 20.04 + Python 3.10 测试过, 如果在其他版本遇到问题, 欢迎反馈
pip install -e .
fap --help