机器人语音识别系统的设计
3.3.3特征向量提取 特征向量是提取语音信号中的有效信息,用于进一步的分析处理。目前常用的特征参数包括线性预测倒谱系数LPCC、美尔倒谱系数MFCC等。语音信号特征向量采用Mel频率倒谱系数MFCC(Mel Frequency Cepstrum Coeficient的提取,MFCC参数是基于人的听觉特性的,他利用人听觉的临界带效应,采用MEL倒谱分析技术对语音信号处理得到MEL倒谱系数矢量序列,用MEL倒谱系数表示输入语音的频谱。在语音频谱范围内设置若干个具有三角形或正弦形滤波特性的带通滤波器,然后将语音能量谱通过该滤波器组,求各个滤波器输出,对其取对数,并做离散余弦变换(DCT),即可得到MFCC系数。MFCC系数的变换式可简化为: 3.3.4 语音信号的模式匹配和训练 模型训练即将特征向量进行训练建立模板,模式匹配即将当前特征向量与语音库中的模板进行匹配得出结果。语音库的模式匹配和训练采用隐马尔可夫模型HMM (Hidden Markov Models),他是一种统计随机过程统计特性的概率模型一个双重随机过程,因为隐马尔可夫模型能够很好地描述语音信号的非平稳性和可变性,因此得到广泛的使用。 HMM的基本算法有3种:Viterbi算法,前向一后向算法,Baum-Welch算法。本次设计使用Viterbi算法进行状态判别,将采集语音的特征向量与语音库的模型进行模式匹配。Baum-Welch算法用来解决语音信号的训练,由于模型的观测特征是帧间独立的,从而可以使用Baum- Welch算法进行HMM模型的训练。 3.4 语音识别程序的DSP开发 DSP的开发环境为CCS3.1及。DSP/BIOS,将语音识别和训练程序分别做成模块,定义为不同的函数,在程序中调用。定义语音识别器函数为int Recognizer(int Micin),识别结果输出函数为int Result(void),语音训练器函数为int Train(int Tmode,int Audiod),动作指令输入函数为int Keyin(int Action)。 语音识别器的作用是将当前语音输入变换成语音特征向量,并对语音库的模板进行匹配并输出结果,语音应答输出函数将获取的语音识别结果对应的语音应答输出,语音训练是将多个不同年龄、不同性别、不同口音的人语音指令输入转化为训练库的模板。为防止样本错误,每个人的语音指令需要训练2次,对于2次输入用用欧氏距离去进行模式匹配,若2次输入相似度达到95%,则加入样本集。语音应答输入函数是为每个语音库中模板输入对立的语音输出,以达到语言应答目的。系统工作状态为执行语言识别子程序,训练时执行外部中断,执行训练函数,取得数据库模板,训练完毕返回。程序框图如图3所示。 4 机器人的动作控制系统设计 4.1 FPGA逻辑设计 系统通过语音控制机器人头部动作,头部运动分为上下和左右运动2个自由度,需要2个步进电机控制,DSF完成语音识别以后,输出相应的动作指令,动作执行结束后,DSP发出归零指令,头部回到初试状态。FPGA的作用是提供DSP接口逻辑,设置存储DSP指令的RAM块,同时产生步进电机驱动脉冲控制步进电机转动方向和角度。 FPGA器件为动作指令控制单元,设计采用FLEXlOKE芯片,接收DSP数据后并行控制2路步进电机。FPGA内部结构逻辑如图4所示,FPGA内部设置2个元件为电机脉冲发生器,控制电机的工作脉冲以及正反转。AO~A7为DSP数据输入端口,WR为数据写端口,P1,P2为2个步进电机驱动芯片脉冲输入口,L1,L2为电机正反转控制口,ENABLE为使能信号。 RAM1和RAM2分别为2个步进电机的指令寄存器,电机脉冲发生器发出与RAM中相应数量的方波脉冲。DSP通过DO~D8数据端输出8位指令,其中。 D8为RAM选择,为1时选择RAM1,为0时选择RAM0,DO~D7为输出电机角度,电极上下和左右旋转角度为120°,精度为1°,初始值都为 60°,DO~D7的范围为00000000~11111000,初始值为00111100。FPGA作为步进脉冲发生器,通过时钟周期配置控制电机转速,与初始值对应坐标决定正反转。系统动作指令程序如图5所示。 其中R1为DSP指令寄存器,R2为当前坐标寄存器,通过DSP的输出坐标与FPGA的当前坐标进行差值运算来确定步进电机的旋转方向和旋转角度,优点是可以根据新的输入指令的变化,结束当前动作以运行新的指令,指令执行完毕后,系统清零,步进电机回到初始状态。 4.2 FPGA逻辑仿真 FPGA以MAX-PLUSⅡ开发平台,用语言为VHDL语言对上述逻辑功能进行设计,并通过JTAG接口进行了调试,FLEXl0KE芯片能够根据DSP输出指令输出正确的正反转信号和脉冲波形。 4.3 步进电机驱动设计 FPGA通过P1,L1,P2,L2输出控制控制步
其中,i为三角滤波器的个数,本系统选P为16,F(k)为各个滤波器的输出数据,M为数据长度。
语音识别机器人步进电 相关文章:
- Windows CE 进程、线程和内存管理(11-09)
- RedHatLinux新手入门教程(5)(11-12)
- uClinux介绍(11-09)
- openwebmailV1.60安装教学(11-12)
- Linux嵌入式系统开发平台选型探讨(11-09)
- Windows CE 进程、线程和内存管理(二)(11-09)