利用麦克风数组抑制背景噪声
时间:04-12
来源:世界电子元器件
点击:
声音噪声的特质
这里的噪声场可分为三种,分别是相干噪声、非相干噪声及扩散噪声。
相干噪声是指当声波传到麦克风时,在该过程中没有因环境中的障碍物而出现任何形式的反射、散射或衰减。
非相干噪声是指某一位置的噪声与其它位置的噪声没有任何关系,并且被看成空间白噪音。
扩散噪声是指拥有相同能量的噪声同时轴射到所有方向。例子包括办公室内的噪音、机场候机楼及交通噪音等,换句话说就是指所有充满噪音的环境。
这里所指的声音噪声有两种,分别是稳态噪声及非稳态噪声。
稳态噪声是指噪声的能量相对地稳定,并具备已知及变化缓慢的频谱含量,并且是可预知的。例子包括由引擎发出的噪音、空调风扇、随机或 "白" 噪音等等。噪声抑制算法能有效抑制这类噪音。
非稳态噪声是指音量及声音内容会在短时间内变化,例如高声说话或叫喊、汽车经过的声音或拍手等,其发生是不可预知的。假若出现这类噪音,它们可能在被辨识及抑制前便会自动地消失掉,非稳态噪声一般都包含在稳态噪声之内。
最麻烦的情况是当噪声源与语音信号拥有相同的出现时间、频谱及相干特性,这种情况当背景噪声属于非稳态,且旁边有其它人说话时便会出现,如在餐馆和酒吧,车站及派对上等。
第二部分
麦克风数组的解决方案
根据选用的方法,麦克风数组解决方案可以成为抑制稳态及非稳态噪声的一项非常高效的技术。
配合适当的算法,数组中的个别麦克风信号经过滤波后再组合,以便达到波束成形或空间滤波的效果,进而产生一个复杂的麦克风数组极性响应模式,能够指向或远离某个声音位置。因此,可以将某个位置的声音隔离或加强,又或可将其抑制或拒绝。同样地,麦克风声道中的信号相关性可找出主要信号的方向及其正确位置。
视乎数组的复杂度及应用,该数组可经由一个配备了数字信号处理器的模拟电路,再加上适当的计算机软件和一系列方法去控制。
波束成形
波束成形分为两种技术:自适应及定向。
在自适应波束成形技术中,可通过数据相关滤波及改变对数据的时间响应去调节波束的方向,在自适应波束成形方面已有几种方法被开发出来。虽然在信号的处理上比较繁复,但好处是设计灵活度更高,包括麦克风的数量、类型及间隔距离。自适应波束成形一般需要数字信号处理器或计算机软件来实现。
至于定向波束成形方面,波束的行走方向会按照相关声源的方位而优化,并且同时排除来自其它方向的噪声。一般来说,排列紧密兼具备固有方向性的差分式麦克风端射数组都是依靠固定时间延迟或其它方法来改变波束的方向。对于这类应用,任何滤波及信号处理的方法均须对特别的机械设计加以优化。定向波束成形一般需要模拟电路、数字信号处理器或计算机软件来实现。
对于语音应用来说,采用定向波束成形解决方案会比较好,尤其当应用牵涉到语音辨识。假如以模拟电路来实现,它们便应该:
● 对噪声输入有实时的响应
● 容易实现而且无需开发任何的算法程序
● 为抑制稳态及非稳态噪声提供一个可接受的信/噪比改进(SNRI)值
● 在无语音时表现极低的失真,并且可改善语音质量测试(ITU-T P.835)的整体平均意见分数(mean opinion score)
● 运算复杂度低并具备低信号延迟
● 功耗比其它解决方案小
与定向方案比较,采用数字信号处理器或软件实现的自适应波束成形的缺点为:
● 当实施及调节抑制算法时,需要时间去重复辨识及收敛噪声
● 虽然可提供较佳的SNRI值,但通常也会为语音输出信号带来较多的问题,包括因噪声收敛时间所引起的延迟、卡嗒声和砰啪声、非意愿静音、频率失真、回声或与子频带频率信号处理方法有关的不定期信号级变化
● 由于需要另行开发演算程序,因此在实现上比较困难
● 需要更大的功耗
所有波束成形解决方案都是采用很小的数组,它们对误差都非常敏感,包括由麦克风增益与相位失配所引起的误差,以及由于音频信号路径嵌入于产品内而非设于大气中所导致的路径偏差。因此,波束解决方案必须具备某种形式的补偿,而这种补偿可以设于波束成形系统之内,又或是在系统之外加设适合的麦克风和音频信号路径。
麦克风间隔
奈奎斯特空间采样率为相关最高频率的二分之一个波长(d=λ/2)。为了从空间取得相关频率的一个波长样品,两个传感器(即麦克风)必须相隔二分之一个波长。
然而,当传感器的间隔少于二分之一个波长时(d < 1/2λ),过采样便会发生,使波长被采样超过两次。相反地,如距离大于二分之一个波长(d > 1/2λ),空间性欠采样便会发生,这时第一个传感器在完成一个波长的采样后,会在第二个传感器进行采样之前再重新启动。空间性欠采样可将较高频的信号混迭到相关的频带,导致结果出现混乱。为了防止出现假频,采样器的频宽必须限制在最高相关频率以上。
不少研究指出假如能够尽量缩少传感器之间的距离便可打造出高效的麦克风数组,距离可以比奈奎斯特速率的最低要求小很多。现再举一个例子,其中传感器的间隔为相关声波的八分之一个波长。
在一个纯语音系统中,频率范围为300Hz 到 3500Hz,而最大声音能量可出现在500Hz 到 2500Hz之间。在此条件下,λ/8的间隔在3500Hz下为1.18公分,而于2500Hz下为1.65公分。
由于波长增加,在3500Hz 及2500Hz频率以下的音频信号仍然会被过采样,因此1.18公分或1.65公分的间隔能有效地取得更多的信号样品。
另一个计算方法将间隔定为两公分,如此当频率为2500Hz时,波长的间隔(λ)/(c/df)便为:
λ/(331.1/0.02*2500)=λ/6.62
假如空间采样率在最高相关频率下仍然低于λ/2,则需要调节麦克风的间隔以满足产品的应用要求。但随着间隔越来越挤(空间采样率越来越高),麦克风数组中的远场信号之间的相干性变大,使得数组在各频率下均可发挥更佳的整体背景噪声抑制效能。相反地,假如间隔变得较宽阔,数组的整体抑制能力便会下降,变得难以对较低频信号作出反应。
一旦决定了传感器的间隔,便可对应频率的需求将数组优化。假如采用的是定向波束成形方案,数组的响应模式也需同时被固定。
不论是任何的产品,在设计的过程中必须要作出一些折衷决定,包括在操作频率范围与所需噪声抑制级之间、理论与实际麦克风间隔之间、以及整体的数组系统成本和复杂性之间等。
|
Top