微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 智能家居语音控制解决方案:让家具听懂话

智能家居语音控制解决方案:让家具听懂话

时间:11-09 来源:数智网 点击:

人之间的距离要远大于麦克风和扬声器之间的距离,在这样的情况下,采用内外兼顾的方法进行解决。内部使用特殊的回声消除算法从内部减小噪音对麦克风的影响。另外对于震动带来的非线性干扰,传统的线性回声消除方法失效了,因此可以使用非线性回声消除算法提高内部噪声消除的效果。在外部结构设计方面,使用精心设计的麦克风阵列减震结构,使多个麦克风和它所连接的电路板之间的震动减小到最小,从而最大程度的控制高声强导致的音箱本体震动对拾音的干扰。

  成熟的语音控制应用解决方案

  科大讯飞作为中国最大的智能语音技术提供商,在智能语音技术领域有着长期的研究积累,并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。对于智能家居语音控制的应用,必须解决好距离、效率、个性化、方言、唤醒等问题,科大讯飞在这些方面都有非常成熟的解决方案。

  距离:远场识别技术打破距离瓶颈

  近场识别技术目前已经比较成熟,现在手机上使用的语音输入功能就属于近场识别技术,用户必须在离手机比较近的距离内说话,但在智能家居环境中,用户和智能终端之间的距离被大大增加了,用户能随意用语音控制智能家居的一个必要条件就是在无论你在客厅哪个角落发出指令,设备都能准确的识别,语音识别技术必须突破距离的障碍。

  目前室内的语音交互受到背景噪音、其他人声干扰、回声、混响等多重复杂因素影响,导致识别率低甚至无法使用,只能在相对安静、近距离的环境下使用。而远场识别技术将能够很好的解决这些问题。

  科大讯飞于2015年3月发布远场识别技术,是目前唯一支持超过5米的语音识别技术,突破了语音交互距离瓶颈,大幅度改进了语音交互的自由度。该技术利用麦克风阵列的空域滤波特性——在目标说话人方向形成拾音波束(BeamForming),抑制波束之外的噪声,结合独特的去混响算法,最大程度的吸收反射声,从而达到去除混响的目的,用户在客厅的任意角落通过语音操控智能家电已成为现实。

  效率:快速反应实现秒懂

  近年来,随着深度学习理论的爆发式发展及其在语音识别领域获得的显着效果,同时Kaldi等开源语音识别工具也在工业界和学术界逐渐普及,语音识别的门槛持续降低,许多公司都具备了语音识别的能力及相关产品,但是一些产品反应慢,说出一句话往往要等待很久才能显示结果,另外,准确率也不高,存在识别不出来的情况。

  针对语音识别准确率和响应速度的问题,科大讯飞持续在核心技术和产品特性上做出创新,在把国际领先的深度神经网络技术引入语音识别的基础上,基于深度神经网络的语音增强算法对输入语音进行"识别关键信息无损"的降噪,通过海量训练语料基础上的高精度声学模型和语言模型训练,并结合极致的解码引擎工程技术,实现了在很小延迟的情况下,做到将去除原始语音的噪声干扰和识别几乎同时,大大提高了语音输入的响应速度和用户体验,在大词汇连续语音识别率上可以达到95%以上,命令词识别率达到99%以上,解码引擎可以在用户说完话40毫秒之内给出结果,真正实现"秒懂"。

  

  个性化:自动学习适应用户使用习惯

  每个人在说话时,口音、语速、口头禅都不一样,那么家里的智能设备只会识别一些基本词句显然是远远不够的,它们必须要更懂你。比如,懂你的口音、方言、口头禅以及时不时蹦出的专业词汇等。

  让智能设备适应每个人的使用习惯可能吗?答案是肯定的。这里要用的到就是语音识别的另外一项关键技术——个性化识别技术。个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力,你用的越多,它越懂你。一般来说,个性化识别包括发音和语言两方面。其中发音个性化主要是指系统对用户语速、口音等发音习惯的学习,而语言个性化主要是指系统可以对用户的特定词汇,例如人名、地名、口头禅、专业词汇等,具备更好的辨识性。

  目前科大讯飞的个性化识别技术已能针对每个人的兴趣点、知识背景等来进行个性化语言模型建模,从而准确识别出个性化的词汇内容。以后你用的越多,语音识别系统就会越懂你。

  

  方言:无拘束随心控制

众所周知,中国的语音及语言博大精深,虽然国家在推广标准普通话方面不遗余力,但是中国真正掌握标准普通话的人群比例还是比较低的,而中国的口音现象则是纷繁复杂,同城市中不同口音的情况也很常见。因此,当这些带有或轻或重口音的人群在使用语音输入时,如果按通常的方法使用标准普通话数据进行模型的训练,就会产生很严重的适配问题,从而影响

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top