语音识别技术的应用及发展

时间：11-16 来源：互联网点击：

　　语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

　　1、语音识别的基本原理

　　语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

　　未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

　　2、语音识别技术的发展历史及现状

　　1952年，AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年，美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统，该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年，Fry和Denes等人尝试构建音素器来4个元音和9个辅音，并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代，苏联的Matin等提出了语音结束点的端点检测，使语音识别水平明显上升；Vintsyuk提出了动态编程，这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码（LPC）技术和动态时间规整（DTW）技术，有效地解决了语音信号的特征提取和不等长语音匹配问题；同时提出了矢量量化（VQ）和隐马尔可夫模型（HMM）理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚，取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式，它正逐步成为信息技术中人机接口的关键技术。

　　3、语音识别的方法

　　目前具有代表性的语音识别方法主要有动态时间规整技术（DTW）、隐马尔可夫模型（HMM）、矢量量化（VQ）、人工神经网络（ANN）、支持向量机（SVM）等方法。

　　动态时间规整算法（Dynamic Time Warping，DTW）是在非特定人语音识别中一种简单有效的方法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题，是语音识别技术中出现较早、较常用的一种算法。在应用DTW算法进行语音识别时，就是将已经预处理和分帧过的语音测试信号和参考语音模板进行比较以获取他们之间的相似度，按照某种距离测度得出两模板间的相似程度并选择最佳路径。

　　隐马尔可夫模型（HMM）是语音信号处理中的一种统计模型，是由Markov链演变来的，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较理想的语音识别模型。

　　矢量量化（Vector Quantization）是一种重要的信号压缩方法。与HMM相比，矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是将若干个语音信号波形或特征参数的标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域，每个小区域寻找一个代表矢量，量化时落入小区域的矢量就用这个代表矢量代替。矢量量化器的设计就是从大量信号样本中训练出好的码书，从实际效果出发寻找到好的失真测度定义公式，设计出最佳的矢量量化系统，用最少的搜索和计算失真的运算量实现最大可能的平均信噪比。

　　在实际的应用过程中，人们还研究了多种降低复杂度的方法，包括无记忆的矢量量化、有记忆的矢量量化和模糊矢量量化方法。

人工神经网络（ANN）是20世纪80年代末期提出的一种新的语音识别方法。其本质上是一个自适应非线性动力学系统，模拟了人类神经活动的原理，具有自适应性、并行性、

上一篇：浅析车载网络的作用带宽是关键
下一篇：基于ZigBee节点的智能家居系统语音控制设计

语音识别相关文章：

栏目分类