3D语音处理技术成就类Siri应用
时间:01-15
来源:互联网
点击:
由于近来平板电脑、计算机、智能电视机和其它消费电子设备用的语音控制接口的兴起,语音质量成为了一个热门话题。如果没有可以理解的语音,自动语音识别功能就不能正确工作,无法用作可靠的输入设备。这个问题还与噪声环境纠缠在一起,而噪声环境可能严重地降低语音的质量,甚至会使语音控制功能完全不可工作。
传统噪声抵消技术需要折衷考虑噪声抑制程度和语音质量:噪声抑制水平越高,语音失真的可能性也越大。为了尽量减少这种折衷,工程师开发出了噪声抑制算法来减少噪声电平,这种技术在固定噪声场合具有很好的效果,但在街道噪声和类似其它非固定噪声的场合,性能并不理想。
随着智能手机上引入第二个麦克风,噪声抵消技术向前迈进了一大步。手机上的两个麦克风工作在与人类听觉系统相似的方式。然而,这个功能并不能提供足够的噪声抵消水平来消除语音呼叫或语音控制场合的所有背景噪声,例如在开车或乘坐公共交通工具、甚至在音乐声很大的家里时。
增加用于高级噪声抵消的传感器
除了标准的两个音频麦克风外,高级噪声抵消技术使用了一个新增的传感器,然后应用3D-Vocal算法执行多个语音处理任务,包括回波和背景噪声抵消、响度均衡和一般语音增强。消除背景噪声可以显著提高智能手机、平板电脑和其它移动设备中的自动语音识别(ASR)和语音呼叫应用的准确率。
下图1.0显示了一个高级噪声抵消技术如何影响有噪声语音的例子。上面的波形代表有噪声的语音,是语音和环境噪声叠加的产物(S+N),而下面的波形是经过3D语音处理后得到的干净语音信号。
图1.0:对语音和环境噪声应用典型的3D语音处理技术后的结果。
图2.0显示的是声谱图,上面的图形代表有噪声语音(S+N)的声谱图,下面的声谱图显示的是经过3D语音处理后的语音信号。
图2.0:对语音和环境噪声进行3D处理后的声谱图。
利用传感器和两个麦克风提供的扩展数据集,3D-Vocal算法可以提取出用于表征语音源的特征信号,并区分属于感兴趣语音的声音分量与环境噪声。图3.0中的框图显示了高级噪声抵消技术中的音频处理路径。
图3.0:3D语音处理框图。
3D语音处理框图中的各个模块说明如下:
3D-Vocal(频谱-时间分析):接收来自麦克风阵列和VSensor的所有信号,并对组合信息执行专门的频谱-时间处理。3D-Vocal数据中的一些相关图案与环境噪声有关,其它图案则被识别为用户语音。3D-Vocal频谱-时间处理功能将用户语音从预测的环境噪声中分离出来,并为语音/噪声特征提取模块提供一些参考信息。
特征提取:包含要馈入其它模块的语音/噪声数据。提取出的特征包含了有关用户语音和环境噪声的频谱-时间、实时信息。这些信息可以用来从用户语音中滤除环境噪声,实现回波抵消性能增强等功能。
环境噪声抵消:抵消各种固定和非固定、相关和非相关的环境噪声。环境噪声抵消算法使用特征提取信息和3D-Vocal模块的输出信息。
均衡:均衡接收信号的频谱分布,使其匹配ASR处理或语音呼叫的要求。
尽量减小语音识别应用中的错字率
为了评估改进的语音质量如何影响虚拟辅助(Virtual Assist)性能,需要开展错字率(WER)的测试。测试中根据以下公式计算口语序列和识别序列之间的错字数:
其中,S是替换的字数,D是删除的字数,I是插入的字数,C是正确的字数,N是参考信号中的字数(N=S+D+C)。
语音脚本规定用带3D语音处理和2D语音处理的移动手机上的商用化虚拟辅助系统加以描述,其中包含有不同的背景噪声类型,比如咖啡馆、酒吧、汽车和火车,然后分别计算3D语音处理和2D语音处理技术时的错字率(WER)。
为了了解测试平台性能,测试使用了如图4所示的装置。测试在听音室中进行,室内有一个人头和躯干模拟器(HATS)。待测移动手机固定在人体模型的头上。符合ETSI EG 202 396-1的背景噪声通过一个由主PC触发的PC注入4个扬声器和1个低音炮。HATS的嘴巴播放“专门的干净语音”,这个语音是从主PC那里通过模拟前端(Head Acoustics公司的测量前端MFE VI.I)馈送出来的。被移动手机捕获到的语音则通过虚拟辅助系统转换为文本电子邮件,然后通过分析接收到的文本邮件计算误字率。
图4.0:错字率测试装置。
测试结果如图5所示。当使用3D语音处理技术时,所有噪声类型下的误字率都在10%-15%范围内。当使用2D语音处理技术时,误字率在18%至60%之间,具体取决于噪声类型,这意味着在噪声环境下采用2D语音处理技术的自动语音识别(ASR)功能是不一致的,在有些噪声类型时能很好地工作,遇到其它噪声类型时性能可能很差。然而,我们可以从图5看到,如果采用3D语音处理技术,自动语音识别性能的劣化非常有限,并且对所有噪声类型是一致的,因而使得虚拟辅助系统在各种不同噪声环境具有明显更高的可靠性。
图5.0:利用3D语音处理技术可提高虚拟辅助可靠性。
利用3D语音处理提高语音通信应用的质量
如果智能手机采用高级噪声抵消技术实现语音通信,那么语音质量可以从“差”显著提升到“很好”。可以使用ETSI EG 202 396-1标准比较3D语音处理技术和标准2D噪声抵消技术下的音频质量。这个标准定义了一个测试噪声抑制算法质量的客观方法。表1给出了常见质量的得分情况(GMOS)。
根据MOS得分对不同类型的噪声环境下使用内置2D处理技术的智能手机的语音质量进行了比较。如图6所示,3D语音处理得分明显高于标准的2D语音处理。
表1:常见MOS得分(GMOS)。
图6.0:在3D语音处理和标准2D语音处理情况下作为噪声类型函数的GMOS比较。
3D语音处理附加值
除了更好的语音控制使语音应用在噪声环境中更加有用外,3D语音处理技术还能提供诸多增值好处。它不仅能增强智能手机、平板电脑和各种消费电子设备的语音控制性能,也能使许多其它特殊应用受益。这种技术支持在谈话过程中插入背景音乐或声音,因而可以为电信服务提供商带来新的增值业务,如彩铃。
基于安全和方便的原因,免提操作经常是消费者的首选。而语音控制刚刚开始显露出真正的潜能。测试结果表明,3D语音处理可以显著提高语音控制的可靠性和可用性,使得它成为极有价值的差异化功能。借助这种最新技术,消费者可以享受更多的便利,而运营商和消费电子设备制造商则可以体验新的一系列令收入增长的产品和服务。
原文作者:Lior Blanka,DSP Group公司
传统噪声抵消技术需要折衷考虑噪声抑制程度和语音质量:噪声抑制水平越高,语音失真的可能性也越大。为了尽量减少这种折衷,工程师开发出了噪声抑制算法来减少噪声电平,这种技术在固定噪声场合具有很好的效果,但在街道噪声和类似其它非固定噪声的场合,性能并不理想。
随着智能手机上引入第二个麦克风,噪声抵消技术向前迈进了一大步。手机上的两个麦克风工作在与人类听觉系统相似的方式。然而,这个功能并不能提供足够的噪声抵消水平来消除语音呼叫或语音控制场合的所有背景噪声,例如在开车或乘坐公共交通工具、甚至在音乐声很大的家里时。
增加用于高级噪声抵消的传感器
除了标准的两个音频麦克风外,高级噪声抵消技术使用了一个新增的传感器,然后应用3D-Vocal算法执行多个语音处理任务,包括回波和背景噪声抵消、响度均衡和一般语音增强。消除背景噪声可以显著提高智能手机、平板电脑和其它移动设备中的自动语音识别(ASR)和语音呼叫应用的准确率。
下图1.0显示了一个高级噪声抵消技术如何影响有噪声语音的例子。上面的波形代表有噪声的语音,是语音和环境噪声叠加的产物(S+N),而下面的波形是经过3D语音处理后得到的干净语音信号。
图1.0:对语音和环境噪声应用典型的3D语音处理技术后的结果。
图2.0显示的是声谱图,上面的图形代表有噪声语音(S+N)的声谱图,下面的声谱图显示的是经过3D语音处理后的语音信号。
图2.0:对语音和环境噪声进行3D处理后的声谱图。
利用传感器和两个麦克风提供的扩展数据集,3D-Vocal算法可以提取出用于表征语音源的特征信号,并区分属于感兴趣语音的声音分量与环境噪声。图3.0中的框图显示了高级噪声抵消技术中的音频处理路径。
图3.0:3D语音处理框图。
3D语音处理框图中的各个模块说明如下:
3D-Vocal(频谱-时间分析):接收来自麦克风阵列和VSensor的所有信号,并对组合信息执行专门的频谱-时间处理。3D-Vocal数据中的一些相关图案与环境噪声有关,其它图案则被识别为用户语音。3D-Vocal频谱-时间处理功能将用户语音从预测的环境噪声中分离出来,并为语音/噪声特征提取模块提供一些参考信息。
特征提取:包含要馈入其它模块的语音/噪声数据。提取出的特征包含了有关用户语音和环境噪声的频谱-时间、实时信息。这些信息可以用来从用户语音中滤除环境噪声,实现回波抵消性能增强等功能。
环境噪声抵消:抵消各种固定和非固定、相关和非相关的环境噪声。环境噪声抵消算法使用特征提取信息和3D-Vocal模块的输出信息。
均衡:均衡接收信号的频谱分布,使其匹配ASR处理或语音呼叫的要求。
尽量减小语音识别应用中的错字率
为了评估改进的语音质量如何影响虚拟辅助(Virtual Assist)性能,需要开展错字率(WER)的测试。测试中根据以下公式计算口语序列和识别序列之间的错字数:
其中,S是替换的字数,D是删除的字数,I是插入的字数,C是正确的字数,N是参考信号中的字数(N=S+D+C)。
语音脚本规定用带3D语音处理和2D语音处理的移动手机上的商用化虚拟辅助系统加以描述,其中包含有不同的背景噪声类型,比如咖啡馆、酒吧、汽车和火车,然后分别计算3D语音处理和2D语音处理技术时的错字率(WER)。
为了了解测试平台性能,测试使用了如图4所示的装置。测试在听音室中进行,室内有一个人头和躯干模拟器(HATS)。待测移动手机固定在人体模型的头上。符合ETSI EG 202 396-1的背景噪声通过一个由主PC触发的PC注入4个扬声器和1个低音炮。HATS的嘴巴播放“专门的干净语音”,这个语音是从主PC那里通过模拟前端(Head Acoustics公司的测量前端MFE VI.I)馈送出来的。被移动手机捕获到的语音则通过虚拟辅助系统转换为文本电子邮件,然后通过分析接收到的文本邮件计算误字率。
图4.0:错字率测试装置。
测试结果如图5所示。当使用3D语音处理技术时,所有噪声类型下的误字率都在10%-15%范围内。当使用2D语音处理技术时,误字率在18%至60%之间,具体取决于噪声类型,这意味着在噪声环境下采用2D语音处理技术的自动语音识别(ASR)功能是不一致的,在有些噪声类型时能很好地工作,遇到其它噪声类型时性能可能很差。然而,我们可以从图5看到,如果采用3D语音处理技术,自动语音识别性能的劣化非常有限,并且对所有噪声类型是一致的,因而使得虚拟辅助系统在各种不同噪声环境具有明显更高的可靠性。
图5.0:利用3D语音处理技术可提高虚拟辅助可靠性。
利用3D语音处理提高语音通信应用的质量
如果智能手机采用高级噪声抵消技术实现语音通信,那么语音质量可以从“差”显著提升到“很好”。可以使用ETSI EG 202 396-1标准比较3D语音处理技术和标准2D噪声抵消技术下的音频质量。这个标准定义了一个测试噪声抑制算法质量的客观方法。表1给出了常见质量的得分情况(GMOS)。
根据MOS得分对不同类型的噪声环境下使用内置2D处理技术的智能手机的语音质量进行了比较。如图6所示,3D语音处理得分明显高于标准的2D语音处理。
表1:常见MOS得分(GMOS)。
图6.0:在3D语音处理和标准2D语音处理情况下作为噪声类型函数的GMOS比较。
3D语音处理附加值
除了更好的语音控制使语音应用在噪声环境中更加有用外,3D语音处理技术还能提供诸多增值好处。它不仅能增强智能手机、平板电脑和各种消费电子设备的语音控制性能,也能使许多其它特殊应用受益。这种技术支持在谈话过程中插入背景音乐或声音,因而可以为电信服务提供商带来新的增值业务,如彩铃。
基于安全和方便的原因,免提操作经常是消费者的首选。而语音控制刚刚开始显露出真正的潜能。测试结果表明,3D语音处理可以显著提高语音控制的可靠性和可用性,使得它成为极有价值的差异化功能。借助这种最新技术,消费者可以享受更多的便利,而运营商和消费电子设备制造商则可以体验新的一系列令收入增长的产品和服务。
原文作者:Lior Blanka,DSP Group公司
- 2012年智能手机和平板电脑将决定美国总统大选成败(01-04)
- 基于意法·爱立信 NovaThor U8500平台的Ontim新款平板电脑(01-29)
- 低功耗FPD-Link 串行器为平板电脑带来最高分辨率(04-21)
- 明年平板电脑销量将增63% 苹果仍将领先(04-18)
- 移动MIMO技术:针对平板电脑和超级手机的颠覆性技术介绍(05-19)
- 如何使平板电脑背光耗电减少(04-19)