这个语音识别领域最牛的人,这样揭秘深度学习与语音识别
每个线程(Worker)都要和其它线程同步更新几百兆数据,一秒钟之内这个过程要发生多次。问题是,这种方法会迅速到达瓶颈,同步更新的数据量限制了训练无法进一步提升。这时候有几种解决方案,我们在Amazon所做的是:使用逼近算法(approximations)减少更新规模,压缩3个量级。
这张图表来自我们几年前发表的一篇论文。X轴是GPU线程数,Y轴是处理速度。可以看到我们最多时用了80个GPU。重点是,这条线几乎是直线。这意味着随着使用越来越多的GPU,训练速度就越快,呈线性增长,且并没有明显的饱和。一个有趣的事情是,图表右上方80台GPU的情况中,处理速度达到了55万帧/秒。翻译成通俗易懂的语言,就是每秒能处理30分钟量的语音。这就是为什么我想强调16年这个数字,一个人通过16年、14000小时学习的语音,我们在一天内就可以学会。
微软发布的号称超越人类的语音识别论文很厉害,但仔细想想,我们自身也是超越人类的,因为有这些资源可以使用。我们可以在一周内把14000小时的语音来回学习好几次,也可以花上16年--和我女儿一样大。
这是Alexa的基本原理,可以在此基础上接着来谈谈语音识别了。语音识别是一切的起点,如果语音识别不管用,那么整个系统就没法用,所以它真的非常重要。语音识别技术最近有很大提升,因为深度学习的应用,我们将来可以对语音识别有更多期待。
介绍一下标准的语音识别流程。这些数字描述的是要识别的语音的向量。接下来这个模型很重要,叫做听觉模型(Acoustic model)。它采用分类处理,以10毫秒级的速度处理向量、解决问题、分辨发音。接下来的也很重要,就是从数据库中搜索发音的可能结果,从而找出与目标语音片段中发音最像的词组,然后整理出结果。全部模型都是以机器学习和深度学习为基础构建的。
今天我想再多介绍一点,这是个好例子,甚至是第一个将深度学习用于语音识别的例子。它是一个分级器(classifier),输入向量,输出的是可能结果。这是一个缩小范围问题。这个过程有很多可谈的,但今天我将重点说说其中最有趣的一点。那就是深度神经网络在听觉模型的使用。
底部是接收的声音,然后经由一系列隐藏层将数据传输到终端,在那里寻找对应的语音。我们目前用的是英语语音库,已经在美国收集了几千小时的语音资料了。我们得到的模型很不错,虽然Amazon Echo是个远场设备(far field device),使这个过程更难实现,但我们的语音识别目前运行还不错。
后来,去年的时候我们扩展到了德国。我们做了什么呢?显然我们的德语语音数据并不丰富,于是我们用了一种叫迁移学习(Transport Learning)的方法。迁移学习用传统方法很难做到,但用深度学习就很容易。其他层不变,不同只是将负责输出最终结果的最终层去掉,取而代之的是针对德语的最后一步处理。两种语言音素不一样,所以最终处理不同。只要以少量德语作为数据进行训练,就能得到不错的结果。
接下来我想说说语音识别中的鸡尾酒会效应。【编者注:鸡尾酒会效应(cocktail party effect)是由英国认知科学家Edward Colin Cherry于1953年提出的,指人类一种听力选择能力。人能够把注意力集中于一个声音刺激上,忽略其他背景音。】就像我说的一样,Alexa是个远场设备,使用时可能很多人同时在一个房间里。Alexa是唤醒词,当有人叫Alexa时,Alexa的麦克风就会顺着声音传来的方向去聆听。唤醒并不难,但接下来的难题是声音从四面八方来,对吗?这步就难多了,因为它是开放性的。周围可能有别人说了发音类似的词,也可能有别的谈话声干扰。最难处理的问题是,我们不知道话语什么时候停止,可能几个人话音刚落,旁边的人又开始发出声音,这会导致我们不知道该什么时候开始和停止处理音频。
我们解决这个难题的方法,叫做锚点语音探测(Anchored speech detection)。还记得我们遇到的问题吗--要判断说话者何时停止发言,即使是在周围有其他人也在说话的情况下。我们的做法是,用Alexa这个词作为锚点词(anchor word),然后寻找与发出这个词的声音特性相同的声音,以确定说话者。
从深度学习角度来讲,我们还有一种编码和解码的方法,第一步由编码完成,第二步用解码完成。我将在这里给你们展示一些细节。这里,你们可以看到一个公式,这是目前的神经网络的第一步用到的,唤醒词Alexa以及它的嵌入(embedding),这些编码描述的是说话者的声音特性。然后是第二步,要识别说话者何时结束,我们依旧用锚点词来定位,也就是当那个人说出"jazz"
- 传感器让植物“开口”,渴了冷了全知道(11-15)
- iKair转型传感器厂商发布Maxense 撬动物联硬件领域(05-29)
- Fairchild FIS1100评估套件登陆Mouser,内置全球首款高精度、低功耗MEMS IMU(07-07)
- 投资者最喜欢这样的传感器和人工智能项目(02-24)
- Touch Taiwan 2016智慧显示与触控展览会(07-19)
- AI全面超越人类还需多少年?352名专家这样预测的(05-02)