基于DSP的汉字语音识别系统的实现方式解析

时间：12-21 来源：互联网点击：

音识别系统均采用整词模型HMM。但在大词汇量语音识别中由于所需建立的模型太多而无法使用。

　　基于子词模型的HMM（SubWordbasedHMM）。该类HMM描述的语音单位比词小，如英语语音识别中的基本音素，汉语语音识别中的半音节等。其优点为模型总数少，所以在大词汇量语音识别中得到了广泛的应用。其缺点在于其描述词内协同发音的能力劣于整词模型，但由于子词模型已经得到了非常充分的研究，所以近年来在很多小词表应用识别系统中也用了子词模型。本技术方案采用基于半音节（即声、韵母）的语音建模方法，其识别模型拓扑结构如图3所示，其中静音HMM采用1个状态，每一声母模型采用2个状态，每一韵母模型采用4个状态。

　　图3识别模型拓扑结构

　　根据输出概率分布的不同，HMM（隐含马尔科夫模型）可分为：

　　离散HMM（DiscreteHMM，DHMM）。其输出概率是基于一套码本的离散概率分布，其优点在于由于实现了存储量和计算量都较小，所需的训练语音也较少，但其矢量量化的过程会造成性能的损失。

　　连续HMM（ContinuousDensityHMM，CDHMM）。其输出概率是连续概率密度函数（一般是高斯混合密度函数）。其所需的训练语音较多，模型参数存储量和计算量都较大，在训练语音足够时，其性能优于DHMM。

　　半连续HMM（SemiContinuousHMM，SCHMM）。SCHMM是DHMM和CDHMM的折衷，与DHMM相似，其输出为一套码本，但每个码字均为一个连续概率密度分布函数，这一点与CDHMM相近。其性能和所需的训练语音等均介于DHMM和CDHMM之间。

　　考虑到汉语数码语音所需的模型较少，很容易获得足够多的训练语音，因此本技术方案采用了CDHMM为语音模型。

　　状态输出概率分布为混合高斯密度函数。其各分量计算如下：

　　总的概率输出即为各分量的加权和：

　　式中：s表示当前状态；M为混合分量数；u，Σ，c分别为各混合分量的均值矢量、协方差矩阵和混合分量系数。

　　该算法利用Viterbi译码的过程进行帧同步的搜索，易于实时实现，也容易纳入语法信息。考虑到系统的实时实现性，本技术方案采用Viterbi译码作为系统的搜索算法。

　　5试验结果

　　在汉语全音节与词组混合的语音识别任务中，得到的初步实验结果为：PC微机浮点算法条件下正确覆盖率不低于98%，定点算法的正确覆盖率不低于97%。DSP嵌入系统定点条件下正确覆盖率不低于96%。系统的响应时间满足实时识别的要求。通过测试组严格的检查及抽样测试，证明上述结果真实可靠，该输入法基本达到实用化要求。

　　6结语

　　语音汉字输入技术的研发是具有重大经济和社会意义的课题，该项目采用孤立语音的全音节和词组的混合识别模式，使用连续概率分布非特定人的声学模型，并辅以多候选的人机交互方式，较好地实现了在移动（便携式）电子设备上资源有限的条件下方便快捷的汉字语音输入。

上一篇：DSP编程技巧---详解浮点运算的定点编程
下一篇：浅谈DSP数字信号处理技术的实现与应用

DSP汉字语相关文章：

栏目分类