基于AVR和FPGA高精度数字式移相发生器的设计
时间:11-07
来源:互联网
点击:
1 引 言
语音编码算法利用语音信号的冗余信息及某些人耳不敏感的信息,可以在低比特率上获得较高质量的重建语音,压缩编码一直是通信中的关键技术。语音信号研究者们一直在寻求一种在保持语音质量不显著下降的情况下使语音信号的编码比特率最小的方法,特别地,低比特率语音编码体制(比特率在4.8 kb/s以下)因其广泛的需求而得到研究者的重视。
语音编码器的性能常常用比特率、延时、复杂度和质量4个属性来进行衡量,因此,在分析语音编码器的性能时,主要应该考虑这些属性。值得注意的是,这些属性之间不是孤立的,而是相互紧密联系的,例如,低比特率的编码器一般比高比特率的编码器有更大的延时、更高的算法复杂度和较低的语音质量。因此在对各种编码算法进行取舍时,应根据实际应用环境,在这些属性之间进行权衡。
共振峰参数编码算法在低码率的音频编码中应用越来越广泛。与基于时域波形的压缩算法相比,他在传输的过程中只需要传输构造信号所用的基频和共振峰参数,因此可以大大地降低传输的码率,实现低码率下的多媒体通信。而且,基于共振峰参数的算法无须严格限制信号的结构,他可以灵活地描述音频信号的特征。这一灵活性决定了基于共振峰参数的算法,可以满足对音频信号进行方便访问和控制的需要。
2 基频及共振峰提取
基频与共振峰参数的准确提取对于共振峰编码算法质量起着至关重要的作用。在本课题中采用改进的双重傅里叶变换算法进行语音参数提取。本课题分析算法所需要的语音频谱是由机语公司的SA-0505语谱仪分析得到。机语公司的SA-0505频谱分析仪最高分辨精度为频率分辨精度为5 Hz,时间分辨精度为5 ms。分析结果是各频率分量的幅值函数,不包含相位信息。由于语音信号中相位信息不影响语音分辨,所以在此基础上的进一步工作有很大意义。
在实际的语音参数提取过程中,首先应用机语语谱仪分析语音信号,得到语音的时频分析图谱。如图1所示。
对各时刻的频谱序列进行傅里叶变换,图2所示时刻的频谱序列的傅里叶变换如图3所示。
从图2中可以看出,由于实际的语音是准周期信号和实际上是短时间信号的频率分析,其频谱序列不是周期性冲激函数序列的采样,而是近似三角脉冲的采样,所以其傅里叶变换的幅度谱呈现高频衰减性质。从图3中可以观察到频谱序列的幅度谱是周期信号和高频衰减信号的乘积。实际语音分析过程中各时刻频谱序列的傅里叶变换后衰减幅度差异很大,低频部分有时会出现分支脉冲的幅值大于下一个周期主脉冲的幅值,这对信号周期地分辨产生一定的干扰,而无法准确估计基频值。所以本文在确定基频时利用高频部分衰减幅度差异较小的特点,分析其周期特性并用来计算语音基频。
共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第1~第4共振峰,如图4所示。
对于提取参数准确性的测试,可以在时域和频域上与人工分析的结果进行比较,这种方法可以定量计算出提取算法的准确度,但工作量大不易实现。由于基频和共振峰两个基本信息是语音信号辨别的主要特征点,所以判断两个参数重建语音信号的语音质量就可了解参数提取算法的性能。语音信号重建采用谐波合成方法,即首先根据共振峰信息建立语音频谱的包络,然后根据频谱包络确定基频及其各次谐波的幅值并合成语音信号。本文应用所得到的参数重新生成语音,主观分辨合成语音的质量,据此判断参数提取算法准确度。在短时间内语音信号可以被看作是平稳信号,所以每一帧的语音频谱也可以简化为一组离散信号,离散的量化值就是基频。根据离散频谱利用式(1),式(2)合成语音信号:
V(t)为合成语音信号,fp为基频。为避免出现尖峰信号,设定了相位φn(ω)函数:
比较3种方式确定的离散频谱所合成的语音信号:
(1)直接对原语谱图离散;
(2)对所得的语谱包络离散;
(3)对根据共振峰值确定的频谱包络离散。
此方式的具体方案是:由于人耳对共振峰的参数中的中心频率敏感,而对幅值和带宽不敏感,所以本文只用共振峰的中心频率和最大幅值两个参数信息来合成语音。
根据成年人语音信号的共振峰带宽大约300 Hz,将各共振峰的带宽统一定为300 Hz。重新作语音频谱包络线时,以各共振峰中心频率值为中点、最大能量为幅度作宽度为300 Hz的门信号,然后根据新生成的包络线确定基频的各次谐波的幅值。用第一种语谱图合成语音听起来只是音质略有变化,可以清晰分辨每个音节,完整保留原语音的语调、语气和说话人音质特征等信息。这说明算法能够准确提取基频信息,而且这种合成方法可以合成出高质量的语音信号。用第二种语谱图合成的语音中说话人音质特征有些不清楚,其他方面与第一种相同。第三种语谱图和成的语音中说话人音质特征完全被过滤掉,个别音节有些含糊,但语气、语调信息完整保留。
语音编码算法利用语音信号的冗余信息及某些人耳不敏感的信息,可以在低比特率上获得较高质量的重建语音,压缩编码一直是通信中的关键技术。语音信号研究者们一直在寻求一种在保持语音质量不显著下降的情况下使语音信号的编码比特率最小的方法,特别地,低比特率语音编码体制(比特率在4.8 kb/s以下)因其广泛的需求而得到研究者的重视。
语音编码器的性能常常用比特率、延时、复杂度和质量4个属性来进行衡量,因此,在分析语音编码器的性能时,主要应该考虑这些属性。值得注意的是,这些属性之间不是孤立的,而是相互紧密联系的,例如,低比特率的编码器一般比高比特率的编码器有更大的延时、更高的算法复杂度和较低的语音质量。因此在对各种编码算法进行取舍时,应根据实际应用环境,在这些属性之间进行权衡。
共振峰参数编码算法在低码率的音频编码中应用越来越广泛。与基于时域波形的压缩算法相比,他在传输的过程中只需要传输构造信号所用的基频和共振峰参数,因此可以大大地降低传输的码率,实现低码率下的多媒体通信。而且,基于共振峰参数的算法无须严格限制信号的结构,他可以灵活地描述音频信号的特征。这一灵活性决定了基于共振峰参数的算法,可以满足对音频信号进行方便访问和控制的需要。
2 基频及共振峰提取
基频与共振峰参数的准确提取对于共振峰编码算法质量起着至关重要的作用。在本课题中采用改进的双重傅里叶变换算法进行语音参数提取。本课题分析算法所需要的语音频谱是由机语公司的SA-0505语谱仪分析得到。机语公司的SA-0505频谱分析仪最高分辨精度为频率分辨精度为5 Hz,时间分辨精度为5 ms。分析结果是各频率分量的幅值函数,不包含相位信息。由于语音信号中相位信息不影响语音分辨,所以在此基础上的进一步工作有很大意义。
在实际的语音参数提取过程中,首先应用机语语谱仪分析语音信号,得到语音的时频分析图谱。如图1所示。
对各时刻的频谱序列进行傅里叶变换,图2所示时刻的频谱序列的傅里叶变换如图3所示。
从图2中可以看出,由于实际的语音是准周期信号和实际上是短时间信号的频率分析,其频谱序列不是周期性冲激函数序列的采样,而是近似三角脉冲的采样,所以其傅里叶变换的幅度谱呈现高频衰减性质。从图3中可以观察到频谱序列的幅度谱是周期信号和高频衰减信号的乘积。实际语音分析过程中各时刻频谱序列的傅里叶变换后衰减幅度差异很大,低频部分有时会出现分支脉冲的幅值大于下一个周期主脉冲的幅值,这对信号周期地分辨产生一定的干扰,而无法准确估计基频值。所以本文在确定基频时利用高频部分衰减幅度差异较小的特点,分析其周期特性并用来计算语音基频。
共振峰参数包括共振峰频率、频带宽度和幅值,共振峰信息包含在语音频谱的包络中。因此共振峰参数提取的关键是估计语音频谱包络,并认为谱包络中的最大值就是共振峰。利用语音频谱傅里叶变换相应的低频部分进行逆变换,就可以得到语音频谱的包络曲线。依据频谱包络线各峰值能量的大小确定出第1~第4共振峰,如图4所示。
对于提取参数准确性的测试,可以在时域和频域上与人工分析的结果进行比较,这种方法可以定量计算出提取算法的准确度,但工作量大不易实现。由于基频和共振峰两个基本信息是语音信号辨别的主要特征点,所以判断两个参数重建语音信号的语音质量就可了解参数提取算法的性能。语音信号重建采用谐波合成方法,即首先根据共振峰信息建立语音频谱的包络,然后根据频谱包络确定基频及其各次谐波的幅值并合成语音信号。本文应用所得到的参数重新生成语音,主观分辨合成语音的质量,据此判断参数提取算法准确度。在短时间内语音信号可以被看作是平稳信号,所以每一帧的语音频谱也可以简化为一组离散信号,离散的量化值就是基频。根据离散频谱利用式(1),式(2)合成语音信号:
V(t)为合成语音信号,fp为基频。为避免出现尖峰信号,设定了相位φn(ω)函数:
比较3种方式确定的离散频谱所合成的语音信号:
(1)直接对原语谱图离散;
(2)对所得的语谱包络离散;
(3)对根据共振峰值确定的频谱包络离散。
此方式的具体方案是:由于人耳对共振峰的参数中的中心频率敏感,而对幅值和带宽不敏感,所以本文只用共振峰的中心频率和最大幅值两个参数信息来合成语音。
根据成年人语音信号的共振峰带宽大约300 Hz,将各共振峰的带宽统一定为300 Hz。重新作语音频谱包络线时,以各共振峰中心频率值为中点、最大能量为幅度作宽度为300 Hz的门信号,然后根据新生成的包络线确定基频的各次谐波的幅值。用第一种语谱图合成语音听起来只是音质略有变化,可以清晰分辨每个音节,完整保留原语音的语调、语气和说话人音质特征等信息。这说明算法能够准确提取基频信息,而且这种合成方法可以合成出高质量的语音信号。用第二种语谱图合成的语音中说话人音质特征有些不清楚,其他方面与第一种相同。第三种语谱图和成的语音中说话人音质特征完全被过滤掉,个别音节有些含糊,但语气、语调信息完整保留。
- 基于CPLD的开放式四轴运动控制器的设计(06-23)
- WCDMA速率适配算法的FPGA实现(07-11)
- 基于 FPGA 的 MPEG-4 编解码器(07-18)
- CPLD与绝对式编码器在高精度高速伺服单元中的应用(07-28)
- CPLD在射频卡读写器中的应用(08-02)
- 一种基于CPLD的曼彻斯特编解码器设计(08-06)