科大讯飞新一代语音识别系统解读

时间：07-17 来源：互联网点击：

入对判断当前语音帧的影响，而且这种梯度传播在任何时刻的衰减都是常数的，也是可训练的，因此FSMN用一种更为简单的方式解决了RNN中的梯度消失问题，使得其具有类似LSTM的长时记忆能力。

　　另外，在模型训练效率和稳定性方面，由于FSMN完全基于前馈神经网络，所以不存在RNN训练中因mini-batch中句子长短不一需要补零而导致浪费运算的情况，前馈结构也使得它的并行度更高，可最大化利用GPU计算能力。从最终训练收敛的双向FSMN模型记忆块中各时刻的加权系数分布我们观察到，权重值基本上在当前时刻最大，往左右两边逐渐衰减，这也符合预期。进一步，FSMN可和CTC准则结合，实现语音识别中的"端到端"建模。

　　最后，和其他多个技术点结合后，讯飞基于FSMN的语音识别框架可获得相比业界最好的语音识别系统40%的性能提升，同时结合我们的多GPU并行加速技术，训练效率可达到一万小时训练数据一天可训练收敛。后续基于FSMN框架，我们还将展开更多相关的研究工作，例如：DNN和记忆块更深层次的组合方式，增加记忆块部分复杂度强化记忆功能，FSMN结构和CNN等其他结构的更深度融合等。在这些核心技术持续进步的基础上，科大讯飞的语音识别系统将不断挑战新的高峰！

上一篇：将国产进行到底！新版千元旗舰机魅蓝E拆解
下一篇：双摄像头系列原理

科大讯飞语音识别相关文章：

栏目分类