这个语音识别领域最牛的人,这样揭秘深度学习与语音识别
亚马逊Alexa首席科学家Nikko Strom博士是语音识别领域级别最高的牛人。1997 年从瑞典皇家理工学院语音通信实验室取得博士学位,后进入MIT计算机科学实验室。2000 年加入语音技术新创Tellme Networks。2007 年被微软收购后,加入微软推进商业语音识别技术研究。2011 年加入亚马逊,担任首席科学家,领导语音识别及相关领域的深度学习项目。
近几年他致力于分布式深度学习训练研究,论文已于2015年发表。
本月 18 日,在美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届"AI NEXT"大会上,亚马逊Alexa首席科学家Nikko Strom博士介绍了亚马逊Alexa的深度学习与语音识别的核心技术原理,以下是他的演讲全文:
(Nikko Strom于今年1月发表过同题演讲,使用相同的幻灯片,部分图片为1月时使用的幻灯片。)
今天我要谈谈Alexa的深度学习技术。我会先介绍一下Alexa,然后再说明我们如何将深度学习应用于处理如此大规模的数据,之后我将介绍语音识别和语句合成的技术细节,这是我们主要应用深度学习的两个领域。今天我在这里不是为了讲技术具体原理,所以如果你们希望听的是技术处理的细节,或许在下午的活动中会更开心。最后我将谈谈我们与业界和学界的伙伴合作的其他项目。
起初是这样的,几年前我们发布了Amazon Echo的第一版。我们从小范围做起,限量发布,希望能在大范围公开前先看看使用效果。用户很明确也很快地反馈了他们喜欢我们的产品,反响来得之快远出乎我们意料。从这个起点开始,转眼Amazon Echo设备销量已达到几百万。人们对此很感兴趣,想听我讲更多我们把产品从小做到大、从默默无闻做到具有巨大商业价值的过程。
总之,我们将这个产品做了个扩展,做了个更小的版本,Echo Dots,也是无线设备。顺便提一句,活动结束后,你们可以在我们的展台试用这些产品。去年圣诞期间新加入了白色版本。不只如此,Fire TV、Fire平板电脑,还有其他一些第三方设备上,也可以下载到内建Alexa技术的产品,我们提供了声音识别技术植入它们的API。连手表都用我们的技术,弄得我都想要这种手表了。
以上是植有Alxea技术的一些电子产品。还有很多是智能家居设备,不仅有声音感应功能,而且是由Alexa来进行控制。我最喜欢的是灯的开关。就像我家的那种开关,都是智能的,所以在家经常能听到我说"Alexa,把厨房灯打开"一类的话。其实这个场景看起来挺傻的,因为其实我就站在开关旁边。当然它也可以这么用,比如上楼时,我就说,"楼上的灯,亮!",很有趣。我家的电视也有这个功能,所以我会说"Alexa,打开电视"。你真应该来看看。
我们扩展的另一个领域,是Alexa可实现的功能。也许你们没有读到新闻,我们最近的成果是,Alexa已经有超过一万项技能了。功能可以由第三方来开发,不用我们亲自来。我们有供第三方使用的API,来让开发者给Alexa加入各种各样的技能,以丰富用户体验。
以上我说的这些,都让Alexa的应用越来越广,也意味着我们收集的数据越来越多。正如我开始说的,我们已经卖出了几百万台设备,应用于各种各样的场景。有时候你根本不知道人们用它来做什么,毕竟上万种功能,我不可能熟知每一种。但我知道,人们很喜欢这个产品。我在这个产业里的时间很长了,我曾经做过人们根本不爱用的系统。所以如今,得到人们的喜爱,让我很庆幸能继续做我所做的。我总是收到各种各样的邮件和亚马逊上的高分评价说他们多么喜欢我们的产品,这意味着我们的产品是真真切切在被使用着,每天都有大量数据在产生着。所以,我们需要从这些数据中学习,这就让我们面临学习方法的巨大挑战--机器学习。
大规模学习一题,我已经在去年AWS的一次演讲上谈过了。那次演讲的题目与今天相同,网上有录像可以找到。我们的语音数据量以小时为单位计算的话,以正常生活作比,是一个人成长16年所听到的语音量。因为除去睡觉、开车和干别的事,你真正在"听"话语的时间,只有一天的10%,16年就是14000小时。婴儿长到16岁,已经完全可以习得听懂谈话的能力了,于是有人拿这个数字来与我们的机器学习作比较。
总之,我们有来自用户的几千小时的语音数据,储存在S3上。我们利用AWS EC2云的分布式GPU集群来训练深度学习模型。因为数据量大太,我们只能采用分布式训练法(Distributed training),多台GPU同时运行。这也是我们所面临的挑战。这是比较旧的幻灯片了,上面说我们用的是G2,但其实我们现在用的是更快的GPU了。
8台GPU同时运行,
- 传感器让植物“开口”,渴了冷了全知道(11-15)
- iKair转型传感器厂商发布Maxense 撬动物联硬件领域(05-29)
- Fairchild FIS1100评估套件登陆Mouser,内置全球首款高精度、低功耗MEMS IMU(07-07)
- 投资者最喜欢这样的传感器和人工智能项目(02-24)
- Touch Taiwan 2016智慧显示与触控展览会(07-19)
- AI全面超越人类还需多少年?352名专家这样预测的(05-02)