微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 实时语音识别系统在家庭监护机器人的实现

实时语音识别系统在家庭监护机器人的实现

时间:11-16 来源:维库电子市场网 点击:

dden Markov Model Toolkit)是一套专门的建立和处理隐马可夫模型(HMMs)的实验工具包,由英国剑桥大学工程系(Cambridge University Engineering Department,CUED)开发的,主要应用于语音识别领域,也可以应用于语音合成、字符识别和DNA排序等研究领域。HTK经过剑桥大学、 Entropic公司及Microsoft公司的不断增强和改进,使其在语音识别领域处于世界领先水平。

  基于HTK的语言识别时,识别结果适用只能显示在DOS或终端上,而且不利于将结果保存、移植或者二次开发利用。在本语音识别系统中使用了HTK接口工具ATK(AnApplication Toolkit for HTK)。ATK是由英国剑桥大学开发的开源语音识别工具,是对HTK的C++多线程封装,跟HTK一样,它支持Linux和Windows,它包括 HTK(HTKLib)、AHTK、AGram、ANGram、ADict、AHMMs、AResource、ARMan、ARec、ACode、 ASour ce、ATee、AComponent、ABuffer、APacket、Asyn、FLite(SYNLib)、ALog模块部件。

  基于ATK的语音识别软件应用系统的由语音信号采集模块、基于DMA的双向高速RAM存取模块、ATK语音识别模块、系统管理模块、语音输出模块等模块组成,如图4所示。

  

  图4 系统软件设计结构图

  在软件设计中,系统管理模块主要负责系统的总体管理调度,是应用系统的调度中心;语音信号采集模块主要负责控制数据采集芯片TPS 65930;基于DMA的双向RAM存取模块主要负责实现DMA驱动及双向RAM的读写存取,使用了通道1来实现高速地把语音信号采集到的数据存储到 RAM上,并使用通道2实现高速地把RAM的数据取出来,用于语音的识别;语音输出模块主要负责把相应的音频数据送到TPS65930,并控制TPS6 5930对接收到的音频解码输出到功放电路,实现语音输出的功能。软件的设计流程图如图5所示。

  

  图5 软件设计流程

  2 语音识别系统实验及结果

  文中设计的语音识别系统如图6所示。在实验中总共进行了3轮话语测试,每轮300句话语测试,其中 150句为家庭监护机器人需要识别的话语,150句话语为机器人不予置理的无关话语。本系统只设置10个需要识别的话语,由15名学生分别读音进行测试。同时对无关话语也是由该15名学生,每人10句分别随机读音测试。从显示结果可以看出,第1轮中,先测试的150句无关话语中,能正确识别出无关话语数为 150句,识别出无关话语率为100%,但对需识别的话语中,正确识别出148句,2句识别出错,识别率为98.67%;在第2轮中,同样先测试的150 句无关话语中,能正确识别出无关话语数为150句,识别出为无关话语率为100%,但对需识别的话语中,正确识别出142句,8句识别出错,识别率为 94.67%;在第3轮中,同样先测试的150句无关话语中,能正确识别出无关话语数为150句,识别出无关话语率为100%,但对需识别的话语中,正确识别出146句,识别率为97.33%.在3轮测试中,系统都能实时响应所有语句,未出现漏句现象。并且在实验测试的过程中,系统的响应速度都非常快,感观上没有时间延迟,与真人交流速度相当。

  

  图6 系统实验界面

  从实验测试结果可看出,对于识别10个需要识别的话语的识别率高达94.67%以上,具有较高的识别率,因而该语音识别系统较好达到了家庭监护机器人使用的要求。

  3 结论

  文中通过DSP、DMA和ARM Cortex-A8的并行处理,利用双缓冲的方法,在嵌入式Linux上实现了基于ATK的实时语音识别系统。该系统可以实时地实现语音识别,具有较高识别率,较快的响应速度。可以应用在家庭监护机器人及其相关领域中。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top