earSmart技术重新定义用户的移动语音体验

时间：01-12 来源：互联网点击：

中国的经济生机勃勃，广大的人群和手机用户群的存在，使得我们的环境变得非常的嘈杂和喧闹。在火车站、机场和街道上，随处可见人们打电话的场景。现实生活中的噪音成为了影响用户体验的一个难题。如何移除这些噪音，只是保留纯净的音质，是需要解决的一大挑战。
在Audience（奥顶智音）公司近期的新品宣讲会上，该公司市场营销副总裁Robert Schoenfield（图1）谈到，回顾电脑和手机界面的变革，电脑界面最初是以DOS命令行输入；Windows桌面的推出使得人机交互得以改观；触摸屏的进步使得人们不需要借助键盘就可以在触摸屏上输入指令。如今便到了语音的天下，很多应用都是基于语音实现的。不管是智能手机、平板电脑或是家电，当操作者发出语音后，这些设备能够对其进行处理并理解这些指令信息。

图1：Audience公司市场营销副总裁Robert Schoenfield。

然而，现实世界的环境中不可避免地混杂着或多或少的噪声。如何剔除这些噪声，仅获得纯净的语音，便是该公司的解决方案。Audience公司的工程师和科学家专注于听觉神经学的研发，对声音和语音进行处理。该公司潜心研究并模拟了人耳接收周围环境信息的功能。人们在说话时，方向是有指向性的，音调也是在发生改变的。同时，人与人之间在交流时，人耳会判断并专注于对方的说话声，而不会被环境噪声所扰乱。Audience对人耳的听觉特点模拟出算法，移植到了芯片之上。
Audience公司的earSmart技术从实时通讯、语音识别和媒体捕捉三个方面对用户体验进行改善。在实时通讯上，该公司和移动运营商合作，致力于提升用户的通话体验——在非常吵杂和喧闹的环境下，用户仍能够进行清晰的通话。earSmart技术还可以提高语音识别功能。科大讯飞的语音识别技术让用户体验提升到一个新的层次，earSmart技术可以帮助剔除背景噪音，保留纯净的音质。
人们早期使用手机仅限于语音通话，现在的手机具有摄像机和音乐播放器等多种功能。视频捕捉已经达到全高清的体验，自然，大家便希望音频捕捉功能能够达到与视频捕捉同样的效果。
Audience公司的工程师在现场用扬声器和带有eS325芯片（图2）的平板电脑，模拟了在人声鼎沸的餐馆中进行手机免提通话的场景。通过在平板电脑上开启和关闭降噪功能，录音并进行回放，可以听到明显的效果反差。

图2：采用earSmart技术的eS325高级语音处理器及其结构。

另一个演示是语音识别。科大讯飞的语音识别引擎可以帮助实现语音搜索和导航功能。然而，语音识别的准确率必须在65%以上，才能得到用户的认可。当用户从安静的客厅转换到喧闹的大街上，便会发现语音识别功能并不那么好用。在引入Audience的ASR Assist（自动语音识别辅助）功能后，噪声环境下语音识别的准确率可改善到80%以上。
Robert 介绍说，Audience的芯片已经被多家手机厂商所采用，其技术也使得整个手机行业的面貌焕然一新。大家所用到的手机产品，不管是三星、苹果还是华为的手机，都装了两个麦克风。这两个麦克风就好比人类的两只耳朵，可以帮助我们只接收语音信息，剔除掉环境噪音。
目前，Audience已经出货了3亿多颗高级语音处理器芯片，应用于150多种移动设备。三星的Galaxy S3和S4，华为的Mate以及小米、魅族、步步高等公司产品都采用了该公司的技术。另外，该公司也与谷歌、微软等操作系统提供商合作，使他们的操作系统对其解决方案提供支持。对于PC或平板电脑的语音操作，不像手机那样距离较近，在远距离的语音识别上，该公司的解决方案也可以提升这些设备的用户体验。
到目前为止，Audience推出了三代产品。该公司的第一代产品是非常简单的具有双路麦克风噪音抑制的近距离通话窄带电话技术。第二代产品的旗舰型号eS305，则支持远距离通话的宽带电话技术以及ASR Assist技术，提供多媒体处理功能。第三代技术产品——高级语音处理器eS325（三星的Galaxy S4上采用的便是这项技术）（图3），使超级宽带网络电话技术（24kHz）成为可能，并提供了第二代ASR Assist技术。该产品不仅在前代产品的基础上实现了非常大的升级换代（真正的三路麦克风技术），而且提供了De-reverb技术、音频变焦以及增强型高清立体声录制功能。智能声音处理器eS515则是在eS325基础上，集成了高性能的立体声音频编解码器（图4）。

图3：采用eS325高级语音处理器的系统框图。

图4：智能声音处理器eS515在eS325基础上集成了高性能的立体声音频编解码器。

世界各地移动运营商的技术规范并不一样。美国的移动运营商对音质要求非常高，希望能够剔除所有噪声，只保留纯净的音质，而欧洲的运营商则希望将背景噪声尽可能降低（不至于影响通话），这样也可通过通话了解对方所处的环境。Robert强调，针对不同移动运营商的标准，Audience的产品都可以做到高度兼容。
手机最初的功能仅限于打电话，后来加入了短信功能，随着互联网的兴起，用户可以在手机上进行信息搜索和浏览网页，如今，各种社交媒体平台受到广大用户的欢迎。所有这些平台都是朝语音驱动的方向来进步的。比方说，驾车时是不可能用手指点屏幕，这时用户便希望通过语音来操作导航仪。Audience已经将人机交互的技术发展到用语音来取代触摸屏。
另外，LTE的部署将会带来非常大的机遇。首先是可以让语音变成真正的移动宽带数据，使语音数据传输速率变快；第二，数据传输率的飞跃，将会促进语音应用程序的发展。同时，移动运营商需要具有前瞻性的目光，在4G产品推出之前制定包括语音应用在内的各种技术规范。Audience和中国移动共建了一个语音实验室，帮助进行技术规范的制定及其解决方案的测试，同时这也有利于对将来整个生态系统的开发。

上一篇：苹果大战谷歌，向左or向右？
下一篇：阻碍国产手机出海的暗礁在哪？

触摸屏平板电脑解码器 LTE 相关文章：

栏目分类