微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 语音识别技术原理全面解析

语音识别技术原理全面解析

时间:05-15 来源:电子发烧友网 点击:

,具有自 适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入—输出映射能力在语音识别中都很有吸引力。其方法是模拟人脑思维机制的工程模型,它与 HMM正好相反,其分类决策能力和对不确定信息的描述能力得到举世公认,但它对动态时间信号的描述能力尚不尽如人意,通常MLP分类器只能解决静态模式分 类问题,并不涉及时间序列的处理。尽管学者们提出了许多含反馈的结构,但它们仍不足以刻画诸如语音信号这种时间序列的动态特性。由于ANN不能很好地描述 语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自的缺点。近年来结合神经网络和隐含 马尔可夫模型的识别算法研究取得了显着进展,其识别率已经接近隐含马尔可夫模型的识别系统,进一步提高了语音识别的鲁棒性和准确率。

  支持向量机(Support vector machine)是应用统计学理论的一种新的学习机模型,采用结构风险最小化原理(Structural Risk Minimization,SRM),有效克服了传统经验风险最小化方法的缺点。兼顾训练误差和泛化能力,在解决小样本、非线性及高维模式识别方面有许多 优越的性能,已经被广泛地应用到模式识别领域。

  4、语音识别系统的分类

  语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:(1)特定人语音识别系统。仅考虑对于专人的话音 进行识别。(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的 语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。

  如果从说话的方式考虑,也可以将识别系统分为三类:(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始 出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。

  如果从识别系统的词汇量大小考虑,也可 以将识别系统分为三类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识 别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据 词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。

  5、语音识别的应用

  语音识别可以应用的领域大致分为大五类:

  办公室或商务系统。典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。

  制造业:在质量控制中,语音识别系统可以为制造过程提供一种"不用手"、"不用眼"的检控(部件检查)。

  电信:相当广泛的一类应用在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。

  医疗:这方面的主要应用是由声音来生成和编辑专业的医疗报告。

  其他:包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系统。

  

  未来随着手持设备的小型化,甚至穿戴化,各种智能眼镜,手表等层出不穷,当然找准市场突破口很重要,好的解决方案和系统设计参考也是必不可少的。

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top