科大讯飞内部技术资料，语音处理检测的那些必备技巧

时间：07-23 来源：雷锋网点击：

听度阈值，它对于音频压缩灰常重要。

设想在一个安静的房间中，一台由计算机控制的扬声器可以发出某一频率的声音，刚开始时扬声器功率较小，处于一定距离上的听觉正常的人听不到扬声器发出的声音。然后开始逐渐增大扬声器的功率，当功率增大到刚好可以被听见的时候，记录下此时扬声器的功率（声强级，单位分贝），这个功率就是这个频率下的可听度阈值。

然后改变扬声器所发音频的频率，重复以上实验，最终获得的可听度阈值随频率变化的曲线如下图所示：

由图中可以很明显的看出，人类的听觉系统对频率在1000-5000Hz范围的声音最敏感，频率越接近两侧，人类听觉反应越迟钝。

回过头来再看频率屏蔽的情形，这次实验在房间中增加一个频率为150Hz，强度为60dB的信号，然后重复实验，实验得出的可听度阈值曲线如下图所示：

从图中很明显的看出，可听度阈值曲线在150Hz附近被强烈的扭曲了，被向上提高了很多。这意味着，本来位于可听度阈值之上的150Hz附近的某个频率的声音，有可能由于150Hz的更强的信号的存在而变得不可闻了，也就是被屏蔽了。

感知编码的基本规则就是，永远不需要对人耳听不到的信号进行编码，简单来说就是，听不到的信号不需要编码，这句废话恰恰是语音压缩研究的重点之一。废话的另外一种含义就是非常容易理解的正确的话。言归正传，哪些东西听不见呢？功率低于可听度阈值的信号或者说分量，被屏蔽的信号或者说分量，这些人耳都听不见，都是上文提到的"冗余"。

以上是心里声学的一些东西。要想很好的理解音频压缩，还需要理解一个更重要的概念：子带。子带（subband）是指这样的一种频率范围，当两个音调的频率位于一个子带内时，人就会把两个音调听成一个。更一般的情况是，如果一个复杂信号的频率分布位于一个子带内时，人耳的感觉是该信号等价于一个频率位于该子带中心频率处的简单信号，这是子带的核心内涵。简单说，子带是指一个频率范围，频谱位于这个范围内的信号可以用一个单一频率的分量来代替。

一般等价的频率取子带的中心频率，振幅取子带内个频率分量振幅的加权和，更简单的方法则是将各频率分量的振幅直接相加，作为等价信号的振幅，这样一个范围内的频率分量用一个分量就可以代替了。

设一个信号的频谱频率最低值为w0，最大值为w1。子带编码就是将w0-w1之间的频率范围划分成若干子带，然后每个子带范围内的分量用一个等价的频率分量来替换。这样，一个具有复杂频谱的信号可以等价为一个频谱构成灰常简单的信号--频谱被大大简化了，需要存储的东西就非常少了。

从以上过程不难知道，子带如何划分对压缩后音频的质量影响很大（毕竟是近似等价）。子带的划分方法是子带编码的一个很重要的研究主题，大致可以分为等宽子带编码和变宽子带编码，见名知意，不解释。

子带划分后子带数量的不同导致了压缩算法的不同等级。容易知道，码率越低压缩率越高时，子带数量少，同时音质较差。相反的情况也容易理解。

理解了子带编码，音频压缩就很容易理解了，一个信号经过一组三角滤波器（等同于一组子带）后，被精简为数量很少的频率分量。然后考察这些频率分量，能量或者说振幅位于可听度阈值曲线之下的直接无视（删除该分量，因为听不到）。再考察余下的两两相邻的频率分量，如果其中一个被旁边的频率屏蔽，也删除掉。经过以上的处理，一个复杂信号的频谱所含有的频率分量就很简单了，使用很少的数据就可以存储或者传输这些信息。

解码的时候使用傅里叶逆变换将上面得到的简单频谱重构到时域上，得到解码后的语音。

以上就是音频压缩的简单原理，下面谈谈音频编解码库。

可以公开获取的音频编解码开源库很多，其特点和能力也有所不同，如下图：

由图中可以看到，AAC和MP3等走的是"高端路线"，用来对高采样率的音乐进行编码，而AMR和SPEEX等走的是中低端路线，可以处理16K采样率以下的语音信号，这对于语音合成、语音识别、声纹识别等语音应用足够了。

科大讯飞语音云使用的是SPEEX系列，算法相关信息如下图所示：

Speex编解码库压缩率变换范围较广，压缩等级可供选择的范围较宽，所以应用在网络状况较为复杂的移动终端应用中甚为合适。

好了，以上就是本次课分享的全部内容。

小结：

音频端点检测、降噪和语音压缩，很多人觉得神秘、难于理解和难以把握。但经李老师娓娓道来，平时感觉高大上的语音处理技术也被讲的深入浅出。原来，不需要很高深的理论功底也可以理解这些技术的关键：音频端点检测的关键是根据前面的静音确定用来分

上一篇：爱德万测试：让存储器及射频产品测试实现更高成本效益
下一篇：罗德与施瓦茨公司GMIT 子公司扩展BMM视音频监测平台

栏目分类