微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 基于DSP的语音识别系统的实现及分析

基于DSP的语音识别系统的实现及分析

时间:03-27 来源:本站整理 点击:

样本均考虑到0~9共10个数字的均匀分布,并且样本类型通过手工标定。

  2.1.2 基于Matlab的语音识别系统的仿真及性能分析

  首先对语音信号进行了预处理及时域分析:使用H(Z)=1-0.9375z-1 进行预加重处理;同时考虑语音信号的短时平稳性,进行分帧加窗---选用Hamming窗,帧长32ms,帧移是10ms.本文所设计系统为小词汇量的连续语音识别,考虑到训练时的工作量和运算量,选用音节作为基本识别单元。语音特征参数矢量采用12维MFCC、12维一阶MFCC以及每帧的短时归一化能量共25维构成。

  本文构造了基于SVM 的连续语音识别系统。系统前端采用MFCC特征参数、并用遗传算法(GA)与矢量量化(VQ)混合算法对其进行聚类得到优化码本,然后将所得码本作为 SVM 模式训练和识别算法的输入,按照相应的准则最终得到识别的结果。语音识别系统流程图如图2所示。

  

  图2 语音识别系统流程图

  首先对不同初始种群数的语音识别系统性能进行了分析。表1给出了不同初始种群下的识别系统性能,从表中可以得出,在迭代次数为100、初始种群数为100时,种群最终平均适应度和正识率最高,之后随着初始种群数继续增加,平均适应度和正识率都在降低。综合考虑迭代所需时间和正识率,本文折衷采用初始种群数为80进行系统的仿真和实现。

  

  表1 不同初始种群下的识别系统性能

  种群数平均适应度迭代所需时间/ (s) 正识率系统设计中考虑到MFCC参数数据量太大,对模型训练和识别的时间有很大的影响,因此选择矢量量化对数据进行分类。矢量量化的关键问题是如何获取VQ码本及码本长度的确定,对此进行了仿真比较。

  表2给出了不同VQ算法对正识率的影响比较。由表可以采用种群数为80,码本长度为16,核函数为 RBF,选用的改进遗传算法(GA)时系统的正识率要明显高于LBG和传统GA.LBG容易陷入局部最优,传统GA 具有全局搜索能力,但收敛速度慢。实验证明,改进的GA较好地解决了这两者的问题,收敛速度较快,正识率也有较为明显的提高。

  

  表2 不同VQ算法对正识率的影响比较

  在此基础上比较了传统GA和优化后GA对不同码本长度失真测度的影响,如图3所示。由图可知,在码本平均失真测度上,改进的GA比传统GA在整体上明显有所降低,即种群平均适应度更高。从图3还可以发现码本长度为32时失真测度达到最低,但相比码本长度为16时的值减少的并不太明显。 考虑到迭代时间问题,本文所采用的码本长度为16.

  不同SVM 核函数对语音识别系统性能也会有影响。SVM分类器的目的是设计一个具有良好性能的分类超平面,以满足在高维特征空间中能通过这个分类超平面区分多类数据样本。

  已有文献证明一对一分类器在边界距离上比一对多分类器更精确,故本文采用一对一方法对多类数据样本进行训练和识别。

  

  图3 码本长度的失真测度对比

  表3给出了针对非特定人的不同SVM 核函数的识别系统性能。表中显示,在取C =3,γ= 125(这里的25为特征参数维数)情况下,尽管核函数为RBF时所需的支持向量数要略高于核函数为Sigmoid时,但系统的正确识别率要明显高于采用其他核函数的系统,因此本文选取RBF作为核函数。

  

  表3 不同SVM 核函数的识别系统性能

  通过Matlab仿真分析了不同的矢量量化算法、SVM 核函数和初始种群数对语音识别系统性能产生的影响,为语音识别系统在DSP上的实现提供了参数和模型的选择。

  2.2 语音识别系统在DSP上的实现

  2.2.1 实验数据的建立

  所有语音信号在安静的实验室环境下获得。基于DSP 平台的实时识别实验系统,语音信号通过麦克风输入,使用TLV320AIC23对模拟语音信号进行采样。语音采样频率为8kHz,采样量化精度为 16bit,双声道。考虑到Flash存储空间有限,本文选用自建语音库中900个样本中的40个样本作为训练样本建立模型参数。

  2.2.2 语音识别系统的硬件结构

  由于语音识别系统算法复杂度较高,同时考虑到实时性,本文选择TI公司的TMS320C6713DSK 作为硬件开发平台。

  TMS320C6713DSK是一款低成本独立开发应用板,其最高工作时钟频率可以达到225MHz,且是高性能的浮点数字信号处理器。且带有TLV320AIC23 立体编解码器,8M 字节32bit的SDRAM,512k字节,8bit的非易失性Flash存储器。

  本系统针对的是非特定人小词汇量连续语音的识别,硬件结构如图4所示,主要包括语音数据采集模块、数据传输模块、数据处理模块、程序数据存储及Flash引导装载模块、数据存储器RAM 模块及其他相关模块。

  

  图4 系统硬件结构图

数据采集模块主要采用TLV320AIC23编解

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top