这个语音识别领域最牛的人，这样揭秘深度学习与语音识别

时间：03-02 来源：Xtecher 点击：

每个线程（Worker）都要和其它线程同步更新几百兆数据，一秒钟之内这个过程要发生多次。问题是，这种方法会迅速到达瓶颈，同步更新的数据量限制了训练无法进一步提升。这时候有几种解决方案，我们在Amazon所做的是：使用逼近算法（approximations）减少更新规模，压缩3个量级。

加载中...

这张图表来自我们几年前发表的一篇论文。X轴是GPU线程数，Y轴是处理速度。可以看到我们最多时用了80个GPU。重点是，这条线几乎是直线。这意味着随着使用越来越多的GPU，训练速度就越快，呈线性增长，且并没有明显的饱和。一个有趣的事情是，图表右上方80台GPU的情况中，处理速度达到了55万帧/秒。翻译成通俗易懂的语言，就是每秒能处理30分钟量的语音。这就是为什么我想强调16年这个数字，一个人通过16年、14000小时学习的语音，我们在一天内就可以学会。

微软发布的号称超越人类的语音识别论文很厉害，但仔细想想，我们自身也是超越人类的，因为有这些资源可以使用。我们可以在一周内把14000小时的语音来回学习好几次，也可以花上16年--和我女儿一样大。

这是Alexa的基本原理，可以在此基础上接着来谈谈语音识别了。语音识别是一切的起点，如果语音识别不管用，那么整个系统就没法用，所以它真的非常重要。语音识别技术最近有很大提升，因为深度学习的应用，我们将来可以对语音识别有更多期待。

加载中...

介绍一下标准的语音识别流程。这些数字描述的是要识别的语音的向量。接下来这个模型很重要，叫做听觉模型（Acoustic model）。它采用分类处理，以10毫秒级的速度处理向量、解决问题、分辨发音。接下来的也很重要，就是从数据库中搜索发音的可能结果，从而找出与目标语音片段中发音最像的词组，然后整理出结果。全部模型都是以机器学习和深度学习为基础构建的。

今天我想再多介绍一点，这是个好例子，甚至是第一个将深度学习用于语音识别的例子。它是一个分级器（classifier），输入向量，输出的是可能结果。这是一个缩小范围问题。这个过程有很多可谈的，但今天我将重点说说其中最有趣的一点。那就是深度神经网络在听觉模型的使用。

底部是接收的声音，然后经由一系列隐藏层将数据传输到终端，在那里寻找对应的语音。我们目前用的是英语语音库，已经在美国收集了几千小时的语音资料了。我们得到的模型很不错，虽然Amazon Echo是个远场设备（far field device），使这个过程更难实现，但我们的语音识别目前运行还不错。

加载中...

后来，去年的时候我们扩展到了德国。我们做了什么呢？显然我们的德语语音数据并不丰富，于是我们用了一种叫迁移学习（Transport Learning）的方法。迁移学习用传统方法很难做到，但用深度学习就很容易。其他层不变，不同只是将负责输出最终结果的最终层去掉，取而代之的是针对德语的最后一步处理。两种语言音素不一样，所以最终处理不同。只要以少量德语作为数据进行训练，就能得到不错的结果。

加载中...

接下来我想说说语音识别中的鸡尾酒会效应。【编者注：鸡尾酒会效应（cocktail party effect）是由英国认知科学家Edward Colin Cherry于1953年提出的，指人类一种听力选择能力。人能够把注意力集中于一个声音刺激上，忽略其他背景音。】就像我说的一样，Alexa是个远场设备，使用时可能很多人同时在一个房间里。Alexa是唤醒词，当有人叫Alexa时，Alexa的麦克风就会顺着声音传来的方向去聆听。唤醒并不难，但接下来的难题是声音从四面八方来，对吗？这步就难多了，因为它是开放性的。周围可能有别人说了发音类似的词，也可能有别的谈话声干扰。最难处理的问题是，我们不知道话语什么时候停止，可能几个人话音刚落，旁边的人又开始发出声音，这会导致我们不知道该什么时候开始和停止处理音频。

我们解决这个难题的方法，叫做锚点语音探测（Anchored speech detection）。还记得我们遇到的问题吗--要判断说话者何时停止发言，即使是在周围有其他人也在说话的情况下。我们的做法是，用Alexa这个词作为锚点词（anchor word），然后寻找与发出这个词的声音特性相同的声音，以确定说话者。

加载中...

从深度学习角度来讲，我们还有一种编码和解码的方法，第一步由编码完成，第二步用解码完成。我将在这里给你们展示一些细节。这里，你们可以看到一个公式，这是目前的神经网络的第一步用到的，唤醒词Alexa以及它的嵌入（embedding），这些编码描述的是说话者的声音特性。然后是第二步，要识别说话者何时结束，我们依旧用锚点词来定位，也就是当那个人说出"jazz"

上一篇：e世绘 | 市场有多大挑战就有多大？MEMS陷入两大困局
下一篇：从不被认可到突飞猛进，人工智能给机器翻译加了多少马力

AI 语音识别深度学习相关文章：

射频专业培训教程推荐

栏目分类