科大讯飞新一代语音识别系统解读
时间:07-17
来源:互联网
点击:
入对判断当前语音帧的影响,而且这种梯度传播在任何时刻的衰减都是常数的,也是可训练的,因此FSMN用一种更为简单的方式解决了RNN中的梯度消失问题,使得其具有类似LSTM的长时记忆能力。
另外,在模型训练效率和稳定性方面,由于FSMN完全基于前馈神经网络,所以不存在RNN训练中因mini-batch中句子长短不一需要补零而导致浪费运算的情况,前馈结构也使得它的并行度更高,可最大化利用GPU计算能力。从最终训练收敛的双向FSMN模型记忆块中各时刻的加权系数分布我们观察到,权重值基本上在当前时刻最大,往左右两边逐渐衰减,这也符合预期。进一步,FSMN可和CTC准则结合,实现语音识别中的"端到端"建模。
最后,和其他多个技术点结合后,讯飞基于FSMN的语音识别框架可获得相比业界最好的语音识别系统40%的性能提升,同时结合我们的多GPU并行加速技术,训练效率可达到一万小时训练数据一天可训练收敛。后续基于FSMN框架,我们还将展开更多相关的研究工作,例如:DNN和记忆块更深层次的组合方式,增加记忆块部分复杂度强化记忆功能,FSMN结构和CNN等其他结构的更深度融合等。在这些核心技术持续进步的基础上,科大讯飞的语音识别系统将不断挑战新的高峰!
- 语音识别技术及厂商解析 智能家居的另一大入口?(07-12)
- 科大讯飞李繁:多生物特征融合认证能极大降低误识率(07-17)
- 锤子M1助科大讯飞上头条 语音识别蓝海将到?(09-20)
- 科大讯飞/百度/微软发力语音识别 潜力无限?(09-21)
- 以核心技术为源头,创造一个AI混合的商业生态(05-30)
- 科大讯飞:做机器人,定位比数据更重要(07-17)
