Internet音频技术概述
Internet音频产业
随着Internet的普及,Internet也迅速成为一个音乐发行渠道。消费者可以从Internet上把他们最喜欢的歌曲或新近发行的歌曲下载到便携式播放器中。固态音频压缩技术不断推进的里程和具有庞大容量的各种便携式存储媒体的出现,使Internet音频产业呈现欣欣向荣的景象。
一些音像公司,如BMG、EMI和华纳,均向Internet内容提供商提供音乐,而Internet内容提供商则将音乐内容提供给消费者下载。这便产生了一个重要的问题,即如何保护Internet发行渠道中的版权。于是,一些在Internet上提供数字权利管理(DRM)的软件公司,如Liquid Audio、Intertrust、Microsoft和Verence便跻身进入这一领域。这种业务的成功在很大程度上取决于SDMI(安全数字音乐倡议组织),该机构联手录音公司、消费电子公司、器件 (半导体芯片)供应商及DRM公司,建立安全方针,确保Internet音乐发行得到保护并具有合法性。以上是这一快速发展领域的总体状况。
MPEG 音频
MPEG是高保真音频压缩的一个国际标准(采用于1992年)。这个标准分为3个层面:II层、III层和I层。流行的MP3是MPEG-1的III层。AAC(高级音频编码)是MPEG的第二阶段(MPEG-2),MPEG-2是MPEG-1的改进。这个新标准采用于1997年。在同样的压缩比率下,AAC比MP3提供更佳的音频质量。MPEG-2和MPEG-3的采样频率高达44.1kHz 或48kHz,比特率在32kbps至128kbps之间。 这些音频压缩标准全都利用了人类听觉系统的直觉特征心理声学。
心理声学
通过将心理声学模型应用到音频比特流中,可以消除大量无关的音频数据。这一模型使用了频域和时域中强信号的屏蔽效果。
频率域屏蔽
当一个强信号(屏蔽信号)出现时,与它同时产生的一个较弱信号(被屏蔽信号)就可能被我们的听觉系统所忽略,前提是在频率域中的被屏蔽信号与屏蔽信号十分相近。这称为频率屏蔽效果(如图1所示)。480Hz将被较强的500Hz信号所屏蔽。通过采集这些频率域在屏蔽效果下的有声和无声的音频水平,可以获得屏蔽阈值。任何振幅比阈值低的信号人耳都听不见,因此可以去除。这将大幅度减少用于对音频信号进行编码的数据量。
当这个屏蔽信号变弱时,阈值曲线也随着降低,直到一个水平,到了这个水平后,无论屏蔽信号是否继续减弱,阈值曲线都将保持不变。只要信号大于3 dB,人耳就能听到音频内容。
时间域屏蔽(当时屏蔽)
这种屏蔽效果不仅在频域发生,而且也在时域发生。当出现一个强信号,并在极短的间隔内跟随一个弱信号时,这个弱信号就几乎被人耳忽略了。这是人类听觉反应系统的感知效果。
这种信号屏蔽能力取决于其频率位置和响度。音频编码器将使用这一信息(信号屏蔽比率SMR),利用允许的编码比特数对输入声频信号进行编码。
算法
基于以上的屏蔽技术,典型的音频编码过程如下所示:
1.使用滤波器带将音频信号分流入频率子带中,大约有32个关键(critical)子带-->子带滤波。
2.使用心理声学模型确定每个子带的屏蔽阈值。
3.计算每个子带的信号屏蔽比率(SMR),信号与屏蔽阈值的比率。
4.如果一个子带中的功率低于屏蔽阈值,就可以去除这个子带。
5.如果比屏蔽阈值高,应确定用来对采样进行量化的比特数量,使量化噪音低于屏蔽阈值动态比特分配。
6.集合全部量化采样,把它们放入比特流帧中。
最终的音频质量主要取决于如何在各个子带中分配比特。解码的复杂程度降低了。在解码过程中无需进行心理声学计算。被编码的比特流被解压缩,经历相反的过程。音频编码和解码过程如图2所示。
以上讨论了MPEG I层的一个最基本的音频压缩算法。II层和III层较之I层有了极大改善。
MPEG-1 III 层 (MP3)增强特性
III层的一些主要增强特性包括:
* 利用一个MDCT(改进的DCT)处理滤波器输出,从而弥补滤波器的一些不足。 MDCT 进而将子带输出分流,产生更佳的光谱分辨率。
* MDCT中频率分辨率的改善会产生失真,这证明它们是预回波。III层使用窗口切换技术减少这种预回波-在不同长度的数据库之间切换。
* 每个子带可以有不同的比例因子。
* 使用赫夫曼编码方法对量子化采样进行编码,以获得更佳的压缩率。
* 比特库:与其它层面不同的是,被编码数据无需适应固定长度帧(每次采样有1152个样点)。当编码器在帧中需要的比特数低于平均数时,编码器可以向比特库提供比特。此后,当编码器需要的比特数高于平均数时,它又可以从比特库中借比特。只能向过去的帧借比特。
音频帧结构
每个MPEG 帧包括(图3)
帧头 - 32 比特
循环冗余码校验 - 纠错循环冗余码(可选), 16比特
比特分配 - 通知解码器使用了多少比特来代表每个采样
比例因子 - 是一个乘法器,将采样按大小排列,解码器将这个比例
因子乘以量子化输出,得到量子化子带值
子带采样 - 在III层中,由于有了"比特库",该部分不是必需连接
到被编码数据的帧上。它可以连接到下面的帧上。
辅助数据 - 可以将非声频数据添加到这个帧上。
- 为音频设备提供高性能的低通30kHz贝塞尔滤波器 (01-02)
- 内置微处理器的USB音频接口芯片TUSB3200 (01-12)
- 三相视频多路放大器加倍音视频源选择器的通道 (01-12)
- 设计面向高清电视的全数字音频系统(03-03)
- 如何利用MEMS麦克风改善移动设备声学性能(06-19)
- 基于MCU和音频解码器设计磁带式MP3播放器 (06-20)