微波EDA网,见证研发工程师的成长!
首页 > 硬件设计 > 硬件工程师文库 > 科大讯飞新一代语音识别系统解读

科大讯飞新一代语音识别系统解读

时间:07-17 来源:互联网 点击:

入对判断当前语音帧的影响,而且这种梯度传播在任何时刻的衰减都是常数的,也是可训练的,因此FSMN用一种更为简单的方式解决了RNN中的梯度消失问题,使得其具有类似LSTM的长时记忆能力。

  另外,在模型训练效率和稳定性方面,由于FSMN完全基于前馈神经网络,所以不存在RNN训练中因mini-batch中句子长短不一需要补零而导致浪费运算的情况,前馈结构也使得它的并行度更高,可最大化利用GPU计算能力。从最终训练收敛的双向FSMN模型记忆块中各时刻的加权系数分布我们观察到,权重值基本上在当前时刻最大,往左右两边逐渐衰减,这也符合预期。进一步,FSMN可和CTC准则结合,实现语音识别中的"端到端"建模。

  最后,和其他多个技术点结合后,讯飞基于FSMN的语音识别框架可获得相比业界最好的语音识别系统40%的性能提升,同时结合我们的多GPU并行加速技术,训练效率可达到一万小时训练数据一天可训练收敛。后续基于FSMN框架,我们还将展开更多相关的研究工作,例如:DNN和记忆块更深层次的组合方式,增加记忆块部分复杂度强化记忆功能,FSMN结构和CNN等其他结构的更深度融合等。在这些核心技术持续进步的基础上,科大讯飞的语音识别系统将不断挑战新的高峰!

Copyright © 2017-2020 微波EDA网 版权所有

网站地图

Top