麦克风阵列是什么有哪些关键技术？

时间：10-01 来源：雷锋网点击：

类噪声通常不具有空间指向性，能量也不是特别大，不会掩盖正常的语音，只是影响了语音的清晰度和可懂度。这种方法不适合强噪声环境下的处理，但是应付日常场景的语音交互足够了。

　　混响消除：混响在语音识别中是个蛮讨厌的因素，混响去除的效果很大程度影响了语音识别的效果。我们知道，当声源停止发声后，声波在房间内要经过多次反射和吸收，似乎若干个声波混合持续一段时间，这种现象叫做混响。混响会严重影响语音信号处理，比如互相关函数或者波束主瓣，降低测向精度。

　　回声抵消：严格来说，这里不应该叫回声，应该叫"自噪声"。回声是混响的延伸概念，这两者的区别就是回声的时延更长。一般来说，超过100毫秒时延的混响，人类能够明显区分出，似乎一个声音同时出现了两次，我们就叫做回声，比如天坛著名的回声壁。实际上，这里所指的是语音交互设备自己发出的声音，比如Echo音箱，当播放歌曲的时候若叫Alexa，这时候麦克风阵列实际上采集了正在播放的音乐和用户所叫的Alexa声音，显然语音识别无法识别这两类声音。回声抵消就是要去掉其中的音乐信息而只保留用户的人声，之所以叫回声抵消，只是延续大家的习惯而已，其实是不恰当的。

　　声源测向：这里没有用声源定位，测向和定位是不太一样的，而消费级麦克风阵列做到测向就可以了，没必要在这方面投入太多成本。声源测向的主要作用就是侦测到与之对话人类的声音以便后续的波束形成。声源测向可以基于能量方法，也可以基于谱估计，阵列也常用TDOA技术。声源测向一般在语音唤醒阶段实现，VAD技术其实就可以包含到这个范畴，也是未来功耗降低的关键研究内容。

　　波束形成：波束形成是通用的信号处理方法，这里是指将一定几何结构排列的麦克风阵列的各麦克风输出信号经过处理（例如加权、时延、求和等）形成空间指向性的方法。波束形成主要是抑制主瓣以外的声音干扰，这里也包括人声，比如几个人围绕Echo谈话的时候，Echo只会识别其中一个人的声音。

　　阵列增益：这个比较容易理解，主要是解决拾音距离的问题，若信号较小，语音识别同样不能保证，通过阵列处理可以适当加大语音信号的能量。

　　模型匹配：这个主要是和语音识别以及语义理解进行匹配，语音交互是一个完整的信号链，从麦克风阵列开始的语音流不可能割裂的存在，必然需要模型匹配在一起。实际上，效果较好的语音交互专用麦克风阵列，通常是两套算法，一套内嵌于硬件实时处理，另外一套服务于云端匹配语音处理。

　　麦克风阵列的技术趋势

　　语音信号其实是不好处理的，我们知道信号处理大多基于平稳信号的假设，但是语音信号的特征参数均是随时间而变化的，是典型的非平稳态过程。幸运的是语音信号在一个较短时间内的特性相对稳定（语音分帧），因而可以将其看作是一个准稳态过程，也就是说语音信号具有短时平稳的特性，这才能用主流信号处理方法对其处理。从这点来看，麦克风阵列的基本原理和模型方面就存在较大的局限，也包括声学的非线性处理（现在基本忽略非线性效应），因此基础研究的突破才是未来的根本。希望能有更多热爱人工智能的学生关注声学，报考我们中科院声学所。

　　另外一个趋势就是麦克风阵列的小型化，麦克风阵列受制于半波长理论的限制，现在的口径还是较大，声智科技现在可以做到2cm-8cm的间距，但是结构布局仍然还是限制了ID设计的自由性。很多产品采用2个麦克风其实并非成本问题，而是ID设计的考虑。实际上，借鉴雷达领域的合成孔径方法，麦克风阵列可以做的更小，而且这种方法已经在军工领域成熟验证，移植到消费领域只是时间问题。

　　还有一个趋势是麦克风阵列的低成本化，当前无论是2个麦克风还是4、6个麦克风阵列，成本都是比较高的，这影响了麦克风阵列的普及。低成本化不是简单的更换芯片器件，而是整个结构的重新设计，包括器件、芯片、算法和云端。这里要强调一下，并非2个麦克风的阵列成本就便宜，实际上2个和4个麦克风阵列的相差不大，2个麦克风阵列的成本也要在60元左右，但是这还不包含进行回声抵消的硬件成本，若综合比较，实际上成本相差不大。特别是今年由于新技术的应用，多麦克风阵列的成本下降非常明显。

再多说一个趋势就是多人声的处理和识别，其中典型的是鸡尾酒会效应，人的耳朵可以在嘈杂的环境中分辨想要的声音，并且能够同时识别多人说话的声音。现在的麦克风阵列和语音识别还都是单人识别模式，距离多人识别的目标还很远。前面提到了现在的算法思想主要是"抑制"，而不是"利用"，这实际上就是人

上一篇：新规范将推 USB Type-C接口要干掉3.5mm音频接口
下一篇：石墨烯充电宝5C条件下快速充电仅需15分钟

智能音响麦克风阵列相关文章：

栏目分类

麦克风阵列是什么 有哪些关键技术？

麦克风阵列是什么有哪些关键技术？