苹果终于把Siri开放给开发者 这是所有细节
例如"发微信给小苹果让她帮我打电话订一辆出租车",这句话对人类来说是再简单不过了,但是对于现有的语义识别系统来说都是极具挑战性的:这到底是要发短信呢?还是打电话?还是叫车?怎么还提到了歌曲"小苹果"啊!
3、发布会上没有提到的特色
不过,笔者也从官方文档中惊喜地发现一个未在发布会上提及的特色。不同于Google Voice Action[1],SiriKit发布第一版就允许开发者在一定程度上自定义语音命令。SiriKit允许开发者通过配置文件的方式自定义某一些词的读音、上下文例句、甚至语义含义,当然,这些必须限定在这7大领域22个意图框架内。
如下面图中例子所示:
图中展示了一个名为"CardioBonaza"的健身应用,其应用支持一个名为"Cardio Craze"的健身项目,用户可以通过Siri直接启动CardioBonaza应用并开始Cardio Craze健身项目上图的配置文件通过以下几方面帮助Siri识别有有关命令:
定义Cardio Craze是开始健身(INStartWorkoutIntent)这个意图下面的workoutName这个属性(注意,这个意图以及意图的指令都是包含在SiriKit那7大领域和22意图内的)。这样一但识别出来,Siri会把Cardio Crazes识别成workoutName属性传给CardioBonazay应用
定义Cardio Craze的发音以及可能出现的上下文,这有助于帮助Siri更准确的语音识别这些不常用词
通过定义Intent Phrase的一些例句,甚至可以影响Siri入口的领域分类(Domain Classification)
苹果一向谨小慎微,这次SiriKit仅仅开放了7个领域,应该是经过充分的用户调研和模型调优。但实际使用中是否能够胜任复杂的用户自然语言,还需要等到真正发布之后好好体验。不过,SiriKit确实做了充分的准备,准备和开发者一起保证良好的语音交互体验。
| 什么是用户真正需要的语音搜索?
除此之外,苹果今天还发布了MacOS版本的Siri,可以在Mac上通过Siri去完成手机上的一些基本功能。比如听歌、查天气,以及一些为Mac笔记本开发的语音命令,比如查找某个文件、或者看看电脑还有多少剩余空间。
连同SiriKit,这应该是Siri自从2012年发布以来最大的一次更新。
但我认为,这次更新仍然乏善可陈。竞争对手Google本身拥有强大的AI研发能力和长期以来的技术积累,SiriKit做的这些事情从技术上来讲都只是一直在追赶Google而已。
要做到如同Google Now一样的智能,比如百科类问题的问答、智能推送[2],苹果还有很长的一段路要走。当然当前,不管是哪家的语音识别技术,从能力上来讲并没有质的区别,人工智能语音搜索仍然是一个新鲜玩意,他的能力远低于人们的预期。在短期人工智能技术难以进行质的突破的情况下,像苹果这样谨小慎微地一步步往前走,慢慢地加入新的功能,让更多的开发者加入这场游戏,总体来说也是推动了整个行业的发展。今天凌晨发布的时候,苹果宣布SiriKit已经得到众多主流App的支持,包括微信、支付宝、滴滴、Whatsapp、Skype等,这也许正是苹果作为一个后来者的优势。
这让我想起了4年前第一次发布Siri的时候,无声无息地发布,在沉寂了十几年的人工智能圈,确确实实地掀起了一阵浪潮。
本文作者陈村,剑桥大学自然语言处理(NLP)组,现为机器学习语义分析工程师。
注解:
【1】Google的Voice Action有自定义语音命令,但是看起来还没有完全准备好。
【2】Google Now会分析用户的Email 来获取用户的一些个人信息,比如航班行程、酒店。苹果在今天凌晨的发布会上声称,出于用户隐私方面的考虑,暂时没有类似的功能。
- 解密英伟达Tesla P100、GP100、DRIVE PX2平台(04-26)
- 人工智能处理器三强Intel/NVIDIA/AMD谁称霸?(07-23)
- 2016年人工智能与深度学习领域的十大收购(07-26)
- 人工智能实现的流派 FPGA vs. ASIC看好谁?(08-27)
- IBM沃森能否在人工智能领域突破重围?(09-19)
- 英特尔与高通将在汽车芯片市场再次对决(上)(10-03)