浅析语音交互发展，要改变人机交互方式还需要做到哪些？

时间：07-25 来源：智慧产品圈点击：

"人工智能AI"已成为当之无愧的热点，人机交互也随之成为AI行业的爆点。伴随AI热的"辐射"，语音交互正在显著改变人机互动的方式，引领未来的变革。得益于数据和算法两大"护法"的助力，语音交互取得了一系列突破性的进展，在各种应用中几成"必备神器"。

01五大方向值得关注

"语言交互技术方面主要包含语音识别、语音合成、语义理解、智能对话、语音识别++五大方面，这些是相辅相成，并行发展的。" 苏州思必驰信息科技有限公司CMO龙梦竹表示。

随着AI热的兴起，业界对语音交互技术的需求随着算法和数据的"迭代"，也在不断提升。龙梦竹接着指出，语音识别技术需不断优化，提升准确度及端到端学习能力，让用户体验越来越好。目前语音识别在通用理想环境下的准确率达95%以上，而对于一些垂直领域中的准确理解，在数据上还有待完善，识别准确度还有待进一步提高，不仅需要算法的"精进"，也需要回声消除、远场抗噪等技术不断向前。

要让语音交互更深地"下沉"，业界专家认为有几大方向需着力解决：一是进一步提升远场识别率，需结合麦克风阵列和后端处理，从拾音源头到识别系统全程优化来增强系统表现。二是更好的识别算法，要有更简单、更面向细分应用的专门算法；三是近几年已经从简单的 DNN 发展到了相对复杂的 LSTM 和 Deep CNN模型，但这些模型表现得还不够优异，需寻找一些特殊的模型以提升识别性能。四是发展快速自适应的方法。

此外，与此相对应的是，面向应用的语音交互芯片的开发也指日可待。由于大规模IC技术的发展，算法的不断成熟，复杂的语音识别系统已完全可以制成专用芯片，以大量生产降低成本。

02芯片/模组、麦克风等走向成熟

语音识别俨然已成为各大应用的"标配"，除在智能终端和车载设备市场争夺分外热闹之际，另一个热门战场无疑就是智能音箱。近半年的热度强力"升温"，成为业界老兵和新秀们的新战场。

而语音识别算法既可经纯软件形式内置于终端等，也可面向垂直行业应用如机器人、音箱等以软硬结合的方式实现。而将软件算法与硬件模组结合在一起，对主芯片和传感器、麦克风、声学结构设计等提出了更多的要求。

对国内外市场几个主流音箱的拆解来看，主控芯片有TI、美满、MTK（联发科）、全志、君正等。麦克风阵列是智能音箱至关重要的一环，功能包括拾音、降噪、回声消除等，厂商主要来自敏芯微电子、豪恩声学、楼氏电子、InvenSense等，而麦克风阵列大多由语音交互厂商如思必驰、科大讯飞等提供。另一关键器件即Codec芯片，拾音、信噪比、多通道同步都需要通过Codec芯片处理，配套的还有ADC、功率放大器等，供应商主要有TI、科胜讯等。Wi-Fi、蓝牙二合一等无线芯片则有高通、美满、NXP等玩家。此外，存储器大多是三星，闪存则来自美光、SanDisk（闪迪）等。而LED照明驱动芯片和电源管理芯片也必不可少。

需要注重的是，大多音箱一般都使用6、7个麦克风的环形阵列，而谷歌Home则独树一帜，使用2麦克风的线性阵列，并且在综合能力如拾音、信噪比、抗噪、抗回声要更好。因谷歌的麦克风阵列采用的算法很有特点，对深度学习的应用较深，采用的波束成型和深度学习相结合的一种形式，形成了差异化竞争优势。

可以看出，智能音箱从芯片/模组、麦克风阵列，产业链配套正在快速演进。但硬件只是基础，如何在有限的硬件上发挥出最大的效能既是对智能音箱厂家的挑战，也是对语音交互提供商的考验。

03生态成落地关键

语音交互虽然"听上去很美"，但要真正落地，还要构建正循环的生态。龙梦竹也认为不仅需要数据和算法"齐头并进"，还应着力与场景应用深度"契合"，构建生态来加速落地。而思必驰最近推出的DUI开放平台将极大地扩容"合作"，成就这一使命。

龙梦竹直言："虽然相比对手的更大的平台，更丰富的资源，思必驰的优势在于拥有数十年的语音技术积淀，是技术驱动型团队，具备平台级的技术能力和基础研发能力，包括底层算法引擎等都是公开的，对于第三方开发者会更加客观，服务也更加到位。"

据悉，为满足不同群体的开发需求，DUI开放平台既支持GUI（图像交互）跟VUI（语音交互），让语音交互的定制可在一个可视化空间中完成。DUI开放平台不仅提供云端API也提供本地SDK，开发者可在云端对内容、引擎、热词等进行实时更新，同时也提供语音唤醒、离线识别等本地功能。此外，思必驰提供高可用定制-唤醒词及合成音定制页面，开发者可提供快速定制个性化合成功能。除此之外，DUI开放平台的每个模块均可自定义，例如GUI自定义、唤醒词定制

上一篇：3D打印让生物传感器可以个性化定制，可穿戴设备成第一推动力
下一篇：一枚传感器颠覆消费电子/汽车领域，“免触控”的方式当真能实现？

语音识别人工智能芯片相关文章：

栏目分类