Rokid语音产品设计指南

Rokid将基于自身打磨多年的历代产品经验，进行总结和归纳，并免费开放给用户。用户可以立即将Rokid优秀的语音整套解决方案，轻松地集成到具有麦克风和喇叭的联网设备上，打造业界优秀的语音交互产品(VoiceUI or VUI products)。

Rokid开放平台技术优势

Rokid拥有完整自主知识产权的全功能语音链条；
远场语音识别的优化：Rokid积累了数年的远场语音真实数据，并用于自有的ASR引擎训练优化，针对智能家居、远距离控制等应用场景具备更好的识别率；
软硬件全流程的技术方案：从麦克风选型、阵列设计，到前端语音处理算法、云端建模，Rokid能够做到硬件和软件的全栈式优化的技术方案；
顶尖的本地和云端建模核心技术：Rokid的语音唤醒、识别、合成以及语义理解，均采用了业界最新最先进的算法建模技术，包括CTC、DeepCNN、LSTM等End To End的语音语义建模算法，结合真实的用户数据，能够达到业界最好的识别和理解水平；
高度灵活和可定制的云端语义理解技术：我们的NLU开放平台可由用户来完成全部订制，并可为用户提供专门的理解模型的训练；
TTS定制和变声技术：为用户提供TTS模型订制以及变声订制（其他平台很少提供这样的服务）；

典型产品示例

开启若琪VUI的方式有两种：触摸以及语音激活；触摸可以通过遥控器或者手机APP，语音则是叫一声“若琪”，类似若琪和若琪•月石的激活词。


应用场景	触摸(<0.5m)	2-3米激活词	3-5米激活词
智能音箱		●	●
遥控器	●
手机APP	●
OTT/机顶盒	●	●	●
智能家居		●	●
车载		●	●

工业设计和结构设计指南

工业设计指南

为保证语音体验的完好，建议水平设置；如果产品设计所需，麦克风的倾斜角度必须<30度。

麦克风阵列排布

① 均匀圆形阵列

数量	设计半径R
4	18mm<R<=30mm
6	25mm<R<=43mm
8	30mm<R<=56mm
16	60mm<R<=110mm

② 均匀线性阵列

数量	设计间距L
2-8	30mm<L<=60mm(43mm最佳)

硬件芯片方案

支持业界主流应用处理器AP

Rokid开放平台的远距离拾音技术可轻松地移植到支持Android与Linux平台的AP：

Samsung
Amlogic
Qualcomm
Allwinner
Others

第三方降噪方案的集成

Rokid开放平台可以将业界优秀的语音激活与降噪芯片厂商，集成到平台中，并与云端的语音识别技术配合，共同提供整体解决方案：

XMOS
Others

麦克风选型参考

语音方案支持业界主流麦克风：

I2S
PDM
Analog

建议用户在保证成本的同时，从信噪比SNR、灵敏度Sensitivity、相位一致性以及SPL曲线特征等参数进行选择。

麦克风数据格式

① 如果直接对接云端不通过我们的前端降噪模块，所需数据:

采样频率：16K
16bit
PCM/OPUS编码的音频文件

② 如果使用前端降噪，则需要按照mic阵列的参数完成一个配置文件，前端降噪支持:

通道数量：2,4,6,8路
采样频率：48K
32bit的PCM语音流

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

rokid-hardware-design-guide.md

rokid-hardware-design-guide.md

Rokid语音产品设计指南

Rokid开放平台技术优势

典型产品示例

工业设计和结构设计指南

工业设计指南

麦克风阵列排布

硬件芯片方案

支持业界主流应用处理器AP

第三方降噪方案的集成

麦克风选型参考

麦克风数据格式

Files

rokid-hardware-design-guide.md

Latest commit

History

rokid-hardware-design-guide.md

File metadata and controls

Rokid语音产品设计指南

Rokid开放平台技术优势

典型产品示例

工业设计和结构设计指南

工业设计指南

麦克风阵列排布

硬件芯片方案

支持业界主流应用处理器AP

第三方降噪方案的集成

麦克风选型参考

麦克风数据格式