一种用于抗噪语音识别的动态参数补偿新方法

时间：05-04 来源：互联网点击：

1 引言
与机器进行语音交流，是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术，其被认为是2000年至2010年间信息技术领域十大重要的科技发展技术之一。在语音识别中，当识别器的训练环境同应用环境不同时，其性能会急剧下降。为了解决这一问题，各种技术方法陆续地被提了出来，这些技术方法主要分为三大类：1)语音鲁棒特征的表达和提取技术；2)语音增强技术；3)模型补偿技术。关于这些方法的详细回顾可参见文献。本文的讨论重点是模型补偿技术。模型补偿技术主要是通过合并纯净语音模型与噪声模型，从而产生出用于识别的带噪语音模型。文献中已经证明PMC方法是一种非常有效的模型补偿方法，它能产生出具有鲁棒性的带噪语音模型，这些文献中并且给出了几种不同的PMC方法。在这些PMC方法中，一些诸如数字积分PMC(Numerical Integral PMC)和数据驱动PMC(Date―driven PMC)方法能够获得很佳的识别率，但是这些方法的运算复杂度巨大，很难运用到实际应用中去。另一方面，一些诸如对数_力口PMC(Log-Add PMC)和对数．正态PMC(Log―Normal PMC)方法通过使用较简单的估计方法来生成带噪语音模型，这样在很低信噪比的条件下识别效果不是很令人满意。其中Log-Normal PMC方法对静态模型参数给出一个严格的补偿方案，但是对动态模型参数，到目前为止只能对其均值进行简单的补偿。虽然这种动态的均值补偿可以提高识别率，但是算法仍有改进的空间，使其能够为动态的协方差参数提供补偿。
为了解决这一问题，本文提出了一种新的动态模型补偿方法(DPCM)。DPCM选定语音特征与噪声特征的差为一个新的附加随机变量，并假设该附加变量与语音和噪声特征的导数之间均相互统计独立。这样，动态特征的补偿即可通过数学的方法来解决。此外新的DPCM可以同任何已知的静态补偿方法结合生成新的带噪语音模型。实验结果也证明使用该DPCM可以提供更好的识别率。
本文定义和使用一致的域标号。上标l表示对数功率谱域，无上标的则表示Mel线性功率谱域。估计出的噪声模型参数用～标记，补偿出的带噪语音模型参数用^标记。

2 模型补偿技术
模型补偿技术是根据应用环境的背景噪声情况，通过修正纯净语音特征的统计模型产生出一个更接近真实带噪语音特征的统计模型。图1是一个基本模型补偿方案框图，输入为一个纯净的语音模型(目前一般采用HMM对语音建模)和一个估计出的噪声模型。总的来讲，模型补偿依据补偿进行的域不同可以分为两类：线性谱域补偿算法和对数谱域补偿算法。

对于Log-Normal PMC(见图1-II)，纯净语音模型同噪声模型的合并是在线性谱域进行。那么纯净语音和噪声模型的参数先要从倒谱域变换到对数谱域，然后再映射到线性谱域。在线性谱域进行模型的合并，然后进行相反的操作把模型参数映射变换回倒谱域。另一方面，Log―Add PMC(见图1一I)模型的补偿是在对数谱域进行。
通常的噪声信号有两类：卷积噪声(信道的频率响应)和加性噪声。在本文中仅考虑加性噪声情况。在文章中采用以下假设：1)噪声是平稳加性噪声，噪声和语音信号是相互统计独立的；2)每个子带的对数频谱域的特征(功率谱)分布被认为是(混合)高斯分布，Mel线性谱域的特征分布被认为是(混合)对数一正态分布。那么在Mel线性谱域第k个子带带噪语音特征Yk为：

其中Xk和Nk分别是线性频谱域的纯净语音和噪声子带特征(“观测”)。g是调节噪声和语音的缩放比例因子，为了表达简单起见，在后面的算法公式中省略此缩放比例因子g。那么对数频谱域子带的带噪语音特征Ykl同纯净语音特征Xkl和噪声特征Nkl的失配函数为：

2．1 静态特征补偿
对于Log-Normal PMC静态模型特征补偿的核心算法是对数谱域与线性谱域之间的非线性映射同线性谱域模型的合并，即：

其中k、l分别为第k、l个子带。
对于Log―Add PMC静态模型特征补偿的只对均值进行补偿：

2．2 动态特征补偿
由于推导出严格的Log―Normal PMC动态特征补偿算法非常困难，目前对Log―Normal PMC的动态特征补偿一般采用粗略的补偿方法，只对其均值进行补偿。

对于Log-Add PMC其动态特征补偿算法为：

3 新的动态模型参数补偿方法
在本文中，使用静态“观测”的时间导数作为动态的“观测”。这样，动态特征的失配函数就应等于静态特征的失配函数的一阶导函数。根据(2)，动态特征失配函数为：

定义一个附加的随机变量Zkl，定义为Zkl=Nkl一Xkl。由于Nkl和Xkl均为正态分布，并且他们之间相互独立，那么随机变量Zkl也是一个正态分布。其的均值和方差分别可以表示为μZkl=μNkl-μXkl和那么动态失配函数(9)就可以进一步改写成含Zkl的函数。

上一篇：基于ATmega16和nRF905的无线射频收发系统设计
下一篇：高质量便携式音频系统的设计实践

语音识别动态参数补偿方法相关文章：

栏目分类