Rokid将基于自身打磨多年的历代产品经验,进行总结和归纳,并免费开放给用户。用户可以立即将Rokid优秀的语音整套解决方案,轻松地集成到具有麦克风和喇叭的联网设备上,打造业界优秀的语音交互产品(VoiceUI or VUI products)。
-
Rokid拥有完整自主知识产权的全功能语音链条;
-
远场语音识别的优化:Rokid积累了数年的远场语音真实数据,并用于自有的ASR引擎训练优化,针对智能家居、远距离控制等应用场景具备更好的识别率;
-
软硬件全流程的技术方案:从麦克风选型、阵列设计,到前端语音处理算法、云端建模,Rokid能够做到硬件和软件的全栈式优化的技术方案;
-
顶尖的本地和云端建模核心技术:Rokid的语音唤醒、识别、合成以及语义理解,均采用了业界最新最先进的算法建模技术,包括CTC、DeepCNN、LSTM等End To End的语音语义建模算法,结合真实的用户数据,能够达到业界最好的识别和理解水平;
-
高度灵活和可定制的云端语义理解技术:我们的NLU开放平台可由用户来完成全部订制,并可为用户提供专门的理解模型的训练;
-
TTS定制和变声技术:为用户提供TTS模型订制以及变声订制(其他平台很少提供这样的服务);
开启若琪VUI的方式有两种:触摸以及语音激活;触摸可以通过遥控器或者手机APP,语音则是叫一声“若琪”,类似若琪和若琪•月石的激活词。
![]() |
![]() |
![]() |
|
---|---|---|---|
应用场景 | 触摸(<0.5m) | 2-3米激活词 | 3-5米激活词 |
智能音箱 | ● | ● | |
遥控器 | ● | ||
手机APP | ● | ||
OTT/机顶盒 | ● | ● | ● |
智能家居 | ● | ● | |
车载 | ● | ● |
为保证语音体验的完好,建议水平设置; 如果产品设计所需,麦克风的倾斜角度必须<30度。
① 均匀圆形阵列
数量 | 设计半径R |
---|---|
4 | 18mm<R<=30mm |
6 | 25mm<R<=43mm |
8 | 30mm<R<=56mm |
16 | 60mm<R<=110mm |
② 均匀线性阵列
数量 | 设计间距L |
---|---|
2-8 | 30mm<L<=60mm(43mm最佳) |
Rokid开放平台的远距离拾音技术可轻松地移植到支持Android与Linux平台的AP:
- Samsung
- Amlogic
- Qualcomm
- Allwinner
- Others
Rokid开放平台可以将业界优秀的语音激活与降噪芯片厂商,集成到平台中,并与云端的语音识别技术配合,共同提供整体解决方案:
- XMOS
- Others
语音方案支持业界主流麦克风:
- I2S
- PDM
- Analog
建议用户在保证成本的同时,从信噪比SNR、灵敏度Sensitivity、相位一致性以及SPL曲线特征等参数进行选择。
① 如果直接对接云端不通过我们的前端降噪模块,所需数据:
- 采样频率:16K
- 16bit
- PCM/OPUS编码的音频文件
② 如果使用前端降噪,则需要按照mic阵列的参数完成一个配置文件,前端降噪支持:
- 通道数量:2,4,6,8路
- 采样频率:48K
- 32bit的PCM语音流