语音识别技术原理全面解析

时间：05-15 来源：电子发烧友网点击：

，具有自适应性、并行性、鲁棒性、容错性和学习特性，其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型，它与 HMM正好相反，其分类决策能力和对不确定信息的描述能力得到举世公认，但它对动态时间信号的描述能力尚不尽如人意，通常MLP分类器只能解决静态模式分类问题，并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构，但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述语音信号的时间动态特性，所以常把ANN与传统识别方法结合，分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含马尔可夫模型的识别算法研究取得了显着进展，其识别率已经接近隐含马尔可夫模型的识别系统，进一步提高了语音识别的鲁棒性和准确率。

　　支持向量机（Support vector machine）是应用统计学理论的一种新的学习机模型，采用结构风险最小化原理（Structural Risk Minimization，SRM），有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力，在解决小样本、非线性及高维模式识别方面有许多优越的性能，已经被广泛地应用到模式识别领域。

　　4、语音识别系统的分类

　　语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑，可以将识别系统分为三类：（1）特定人语音识别系统。仅考虑对于专人的话音进行识别。（2）非特定人语音系统。识别的语音与人无关，通常要用大量不同人的语音数据库对识别系统进行学习。（3）多人的识别系统。通常能识别一组人的语音，或者成为特定组语音识别系统，该系统仅要求对要识别的那组人的语音进行训练。

　　如果从说话的方式考虑，也可以将识别系统分为三类：（1）孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。（2）连接词语音识别系统。连接词输入系统要求对每个词都清楚发音，一些连音现象开始出现。（3）连续语音识别系统。连续语音输入是自然流利的连续语音输入，大量连音和变音会出现。

　　如果从识别系统的词汇量大小考虑，也可以将识别系统分为三类：（1）小词汇量语音识别系统。通常包括几十个词的语音识别系统。（2）中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。（3）大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高，识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统，将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

　　5、语音识别的应用

　　语音识别可以应用的领域大致分为大五类：

　　办公室或商务系统。典型的应用包括：填写数据表格、数据库管理和控制、键盘功能增强等等。

　　制造业：在质量控制中，语音识别系统可以为制造过程提供一种"不用手"、"不用眼"的检控（部件检查）。

　　电信：相当广泛的一类应用在拨号电话系统上都是可行的，包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。

　　医疗：这方面的主要应用是由声音来生成和编辑专业的医疗报告。

　　其他：包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制，如车载交通路况控制系统、音响系统。

　　未来随着手持设备的小型化，甚至穿戴化，各种智能眼镜，手表等层出不穷，当然找准市场突破口很重要，好的解决方案和系统设计参考也是必不可少的。

上一篇：为何我国居民用电是220V
下一篇：选购LED照明灯具需要注意的7点

可穿戴语音识别人机交互相关文章：

栏目分类