微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 智能家庭应用之语音识别系统

智能家庭应用之语音识别系统

时间:09-20 来源:互联网 点击:

L电平可能达到96dB甚至更高。因此对于具有大声回放而且体积不大的设备来说,在使用 96dB或者更低动态范围的ADC时饱和问题很常见。当在实际系统中遇到这些问题时,唯一的解决方案通常是进一步降低麦克风的增强值,但这样做的同时会抬高本底噪声。在这个例子中,麦克风增强值需要减小到12dB。然而,与106dB ADC相比,这样做将使本底噪声高出4.3dB。因此我们可以知道,对远场产品来说首选的解决方案是使用具有高信噪比的麦克风和106dB或更高动态范围的ADC。

 

  远场噪声/干扰和混响消除以及摆脱方向性约束

  在智能家居远场应用中,获得鲁棒性的语音拾取的条件可以说是相当苛刻的。用户和设备之间的远距离导致了其信噪比比近场应用要低很多。远距离还会造成语音具有很低的直接路径与混响路径比值(DRR)。这个比值衡量的是直接传输到麦克风的语音信号能量与通过反射途径到达麦克风的能量的相对大小。在大多数家庭和办公室中,RT60时间一般在300ms至800ms范围内—这个时间将导致音频信号在室内来回反弹中损失掉约60dB的能量。当用户与麦克风的距离超过1米时,低的DRR值对于传统语音增强解决方案和语音识别性能来说是一个很大的问题。

  噪声/干扰条件的变化也很大。系统需要能够同时处理静态干扰(也就是说频谱特性非常稳定或变化非常缓慢的信号)和非静态干扰(即频谱特性不断变化的信号)。当噪声相对稳定时,传统的单个麦克风增强方法是非常有效的。然而,当干扰变成非稳态时,这种方法就捉襟见肘了。因此为了改进现实世界条件下的语音识别性能,要求使用多麦克风方法。

  传统的多麦克风增强算法,比如波束成形,通过估计一组受约束的空间滤波器来增强来自预定义空间方向的信号。图4显示了一种传统波束成形器的框图。这种波束成形器有三个主要单元:最小方差无失真响应(MVDR),阻塞矩阵(BM),自适应后置滤波器。

  

  图4:传统波束成形器有三个主要单元:最小方差无失真响应(MVDR),阻塞矩阵(BM),自适应后置滤波器

  MVDR 将以这样的一种方式将麦克风信号合成在一起:一边尝试将波束成形器的空波束指向干扰源,一边将一个波束指向目标源。对每一个独立的空波束都要求一个额外的麦克风,因此对于目标语音可能来自任何方向的智能家庭应用来说会显著增加成本。MVDR利用增强的信噪比产生对目标源的估计。然而,信号仍然可能包含相当多的残留噪声,因为它不能抵消来自与目标源相同方向的干扰,而这种情况在典型的现实世界中是很常见的,而且它也不能利用有限的麦克风数量抵消掉波束外的所有干扰。阻塞矩阵(BM)可以通过朝目标源放置波束成形器的零点来估计噪声/干扰。然而结果信号将包含目标源的残留,因为在混响条件下,由于反射(混响) 的原因目标源不是从单一方向到达麦克风的。

  自适应后置滤波器的目的是从MVDR输出中消除残留噪声,从而提高信噪比。然而,所有滤波器算法都受这样一个事实的限制:在阻塞矩阵的输出中存在很强的目标源。噪声估计中的这种残留语音将导致所有后置滤波器扭曲到语音信号。随着混响的增加(DRR越来越小),这种失真的严重性也随之增加。解决这个问题的唯一方法是显著增加麦克风的数量,这种解决方案对许多消费类应用来说就变得太过昂贵了。

  因此在对成本敏感的消费产品所具有的远场条件下,传统的波束成形解决方案不能提供令人满意的性能,需要新的解决方案。

  理想的解决方案应该能在各种远场音频条件下提供一致的噪声抑制性能,即使是只使用两个麦克风。这样的解决方案不应对滤波解决方案提出任何严苛的约束条件,比如波束成形中的方向性约束,同时能提供良好的静止和非静止噪声抑制能力。理想的解决方案还应该隐式地建模混响效应,从而避免其性能受DDR变化显著影响这样的波束成形问题。最后,解决方案应该具有足够的鲁棒性,它可以完全不受麦克风位置和麦克风匹配的影响,从而消除对专门参数调谐的要求。

  一种改进的远场解决方案实现是这样一种架构:算法中受监视/约束的部分只用于检测目的,不直接用于约束滤波器设计,而且滤波器都接受无监视方式的训练。图5 显示了基于盲源分离(BSS)的这样一种解决方案的高层结构。这种解决方案有三个主要部分:基于受监视功能的话音活动检测器(VAD),不受监视的空间滤波,不受监视的频谱滤波。

  

  图5:这张图显示了基于盲源分离的SSP高层结构。

基于受监视功能的话音活动检测器(VAD)会对目标语音的存在进行概率测量。然后在不受监视的滤波模块中使用这个信

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top