微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 语音识别技术及厂商解析 智能家居的另一大入口?

语音识别技术及厂商解析 智能家居的另一大入口?

时间:07-12 来源:电子发烧友网原创 点击:

型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等语音识别方法。

  

  语音识别基本框图

  语音识别分类:

  根据对说话人的依赖程度,分为:

  (1)特定人语音识别(SD):只能辨认特定使用者的语音,训练→使用。

  (2)非特定人语音识别(SI):可辨认任何人的语音,无须训练。

  根据对说话方式的要求,分为:

  (1)孤立词识别:每次只能识别单个词汇。

  (2)连续语音识别:用者以正常语速说话,即可识别其中的语句。

  语音识别系统

  语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。

  

  Sphinx是由美国卡内基梅隆大学开发的大词汇量、非特定人、连续英语语音识别系统。一个连续语音识别系统大致可分为四个部分:特征提取,声学模型训练,语言模型训练和解码器。

  (1)预处理模块

  对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测(找出语音信号的始末)、语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析)以及预加重(提升高频部分)等处理。

  (2)特征提取

  去除语音信号中对于语音识别无用的冗余信息,保留能够反映语音本质特征的信息,并用一定的形式表示出来。也就是提取出反映语音信号特征的关键特征参数形成特征矢量序列,以便用于后续处理。

  目前的较常用的提取特征的方法还是比较多的,不过这些提取方法都是由频谱衍生出来的。

  (3)声学模型训练

  根据训练语音库的特征参数训练出声学模型参数。在识别时可以将待识别的语音的特征参数同声学模型进行匹配,得到识别结果。

  目前的主流语音识别系统多采用隐马尔可夫模型HMM进行声学模型建模。

  (4)语言模型训练

  语言模型是用来计算一个句子出现概率的概率模型。它主要用于决定哪个词序列的可能性更大,或者在出现了几个词的情况下预测下一个即将出现的词语的内容。换一个说法说,语言模型是用来约束单词搜索的。它定义了哪些词能跟在上一个已经识别的词的后面(匹配是一个顺序的处理过程),这样就可以为匹配过程排除一些不可能的单词。

  语言建模能够有效的结合汉语语法和语义的知识,描述词之间的内在关系,从而提高识别率,减少搜索范围。语言模型分为三个层次:字典知识,语法知识,句法知识。

  对训练文本数据库进行语法、语义分析,经过基于统计模型训练得到语言模型。语言建模方法主要有基于规则模型和基于统计模型两种方法。

  (5)语音解码和搜索算法

  解码器:即指语音技术中的识别过程。针对输入的语音信号,根据己经训练好的HMM声学模型、语言模型及字典建立一个识别网络,根据搜索算法在该网络中寻找最佳的一条路径,这个路径就是能够以最大概率输出该语音信号的词串,这样就确定这个语音样本所包含的文字了。所以解码操作即指搜索算法:是指在解码端通过搜索技术寻找最优词串的方法。

  连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。当今的主流解码技术都是基于Viterbi搜索算法的,Sphinx也是。

  语音识别技术的难点

  说话人的差异

  • 不同说话人:发音器官,口音,说话风格

  • 同一说话人:不同时间,不同状态

  噪声影响

  • 背景噪声

  • 传输信道,麦克风频响

  鲁棒性技术

  • 区分性训练

  • 特征补偿和模型补偿

  语音识别的具体应用

  • 命令词系统

  Ø 识别语法网络相对受限,对用户要求较严格

  Ø 菜单导航,语音拨号,车载导航,数字字母识别等等

  • 智能交互系统

  Ø 对用户要求较为宽松,需要识别和其他领域技术的结合

  Ø 呼叫路由,POI语音模糊查询,关键词检出

  • 大词汇量连续语音识别系统

  Ø 海量词条,覆盖面广,保证正确率的同时实时性较差

  Ø 音频转写

  • 结合互联网的语音搜索

  Ø 实现语音到文本,语音到语音的搜索

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top