基于智能语音识别的云电视系统设计

时间：10-30 来源：中国高新技术企业点击：

的语义分析，同时对于电视机的不同模块进行分别处理，来完成使用者所想的功能。使用云计算服务器可以减少电视机终端的硬件成本，增加处理速度，来达到对用户命令的智能处理。

　　2.3.1　电视机与云端的传输协议

　　对于特定的电视机系统，每个模块具有特定的关键字，在传输数据到云端的时候，需要传输模块特征和相应的语音数据。

　　2.3.2　语音训练与识别的主要方法

　　在云端接收到数据之后，需要对语音数据进行设别。语音训练与识别是一个模式训练和识别的过程。模式训练是指依照一定的规则，对大量训练信息进行处理，获取能够反映该信息本质特征的模型参数，将从这些训练信息中得到的模型参数组合成一个模式库，而模式匹配则是指依据一定的规则规范，将输入的未知模式与模式库中的模式进行匹配，从模式库中寻找一个相似度最高，即最佳匹配的模式。这种训练和匹配的方法有许多种，目前较常见的方法主要有动态时间规整（DTW）、隐马尔可夫链（HMM）模型、人工神经网络（ANN）等。

　　2.3.3　隐马尔可夫链模型

　　本系统用隐马尔可夫链（Hidden Markov Models，HMM）模型来对语音进行训练和识别，在隐马尔可夫链模型中，它使用马尔可夫链来模拟信号统计特性的变化，本质上它是一个双重随机过程的概率模型。第一重随机过程的概率模型是指由马尔可夫链来表示状态之间的转移，另外一重随机过程的概率模型是指每个状态和多个观测值之间的随机对应关系。在实际问题的应用中，HMM的双重随机过程观察者不能直接看到状态，只能看到观察值，且只有利用一个随机过程去感知状态的存在以及特征。本质上说，人类的语言过程也是一个双重随机过程。语音信号本身是一个能够被观测到的时变序列，是由人的大脑根据语法知识和言语的需要而发出的音素的参数流，这部分就相对于 HMM模型中不可观测的各种状态。HMM模型可以很好地模拟这个双重随机过程，并且很好地描述了语音信号的局部平稳性以及整体的非平稳性，是一种描述语音信号的理想模型。

　　2.3.4　智能语音识别

　　此处采用的关键字识别系统为基于连续语音识别（LVCSR）的关键词识别系统，如图3所示，使用这种结构适用于连续语音关键词识别系统：语言经过连续语音音节识别器后，产生相应的N-Best词格或音节网格，然后使用关键词搜索算法对网格进行关键词搜索。其过程可以大致分成三步：第一步，搜索语音基元，也就是说通过这次搜索得到输入语音对应的拼音序列。通过连续解码，可以得到一个N- Best音节序列或者音节的网格。第二步，针对电视机终端功能模块选择不同的关键词表。第三步，根据上一步得到的音节序列和关键词词表对照，进行关键词的搜索，得到假象命中（可能成为关键词的词）。第四步，根据其他知识源分析第三步得到的假想命中的置信度，给出关键词识别的结果。第五步，对第四步输出的关键字结果进行智能处理，根据特定的电视机系统功能模块给出最终的输出结果。

　　3.电视机智能语音识别处理软件流程

　　3.1　录音检测

　　电视机智能语音识别处理流程图如图4，在需要使用语音设别时，首先需要按下录音键，这个时候系统会检测网络是否连接和麦克是否可以正常使用，如果其中有一项检测失败，系统不会做录音工作，提示检查网络或者检查麦克。

　　3.2　录音处理

　　在设备检测之后，进行录音，由于系统限制，录音有时间限制，不能太长。电视机终端把麦克录下的语音进行预处理和特征提取，然后再把语音和模块特征一起传输到云端服务器，云端服务器再做细致的处理，处理之后再把数据传回终端电视机。

　　3.3　智能功能处理

　　在电视机终端等待接收数据，在5秒之内没有接收到数据，视为TIme out，数据处理失败。如果接收到数据后做相应的处理，在云端就有对各个模块的关键字识别，将传回的数据再针对相应的模块做判断处理。比如在主功能界面，如果语音输入"shezhi"，系统将进入设置界面。或者在影视界面，如果输入"halibote"，系统会查找哈利波特这部影片。

　　4.实验应用

　　由于电视系统在使用过程中情况比较复杂，通过语音设别的准确率也有一些差异。为了得到相对准确的数据，测试分几种情况，一种是在电视系统没有播放audio的时候和在播放audio的时候，另一种是输入语音的长度不一致的情况。

　　4.1　测试嘈杂环境试验

　　这个测试分两种情况，一种是没有播放audio的时候（或者说audio mute的时候），一种是在有播放audio的时候（由于audio播放时分贝不一样，所以以各种嘈杂环境的综合值为主），实验结果见表1：

　　4.2　测试改变输入关键字长度试验

本系统为智能

上一篇：太赫兹技术及其应用详解
下一篇：图文详解：对比中美四款隐身战机

云电视语音识别相关文章：

栏目分类