Siri 将迎来一次大幅度升级。
多亏了去年收购的英国公司 VocalIQ,苹果现在能够使它的数字助手拥有一次质的飞跃。根据了解 VocalIQ 产品的相关信息源,VocalIQ 比 Siri 的几个主要竞争对手都要更加稳定和强大,包括 Google Now, Alexa, 和 Cortana。
在被苹果收购前,VocalIQ 将其产品与 Siri, Google Now, Cortana 等进行测试,结果十分惊人。许多语音指令都又长又复杂,而其他助手很难抓取所有重要信息。例如,让计算机「寻找一个有停车场、有 WiFi、并且适合小孩去的中餐馆。」大部分数字助手都会栽在这里,而 VocalIQ 却能够妥善处理。那数据如何?VocalIQ 的成功率超过 90%,而 Google Now, Siri, Cortana 的成功率仅为 20% 。
VocalIQ 是如何运作的?
在编写完程序后,VocalIQ 在亚马逊的 Mechanical Turk 网络集市上雇佣了一些合同方,让他们对程序输入一些一般用户会用的查询,来帮助程序学习人类是如何说话的。这些合同方会根据一个提示单,来用问题训练 VocalIQ。在进行了 3,000 次对话后,VocalIQ 已经开始变得精确得多了。当整个阶段结束后,VocalIQ 将从 Mechanical Turk 的合同方那里记录大约 10,000 组对话。
然后,将它放到市场环境中,Siri 每周都需要从用户那里获取 10 亿个查询来改进准确度,但是, 仅用几千个查询, VocalIQ就能进行学习,而且表现上超越 Siri。
VocalIQ 听起来可能和 Hound 有些相像,这是一个近期在苹果和安卓系统上发布的,新的数字助手应用。但是,Hound 只能进行单词对话交流,而 VocalIQ 能够永远记住用户提供过的背景信息,就像人一样。这是一个巨大的突破。
回到中餐馆的例子,如果你后来改变主意了怎么办?你只要说「改成找一家墨西哥餐厅吧,」他就会生成新的结果,同时仍然会考虑你提到过的其他要求,比如停车场、WiFi之类的。Hound, Siri 和其它助手会让你重新开始搜索环节,但是 ,VocalIQ 会记住你说过的话。这比当前的任何应用都更加贴近人类。
因为 VocalIQ 能够极好地考虑语境信息,你基本上不需要查看屏幕,以确认它正在完成你安排的任务。这在手机上是十分有用的,但在其它领域能够发挥更大的价值,如驾驶汽车,或者苹果正在建造的智能对话系统(在被收购前,VocalIQ 就曾定位于车载智能语音控制平台)。事实上,当用户不需要看屏幕就能完成连续查询的时候,VocalIQ 就认为自己成功了。而 Siri, Google Now, Cortana 等产品经常让你点击屏幕以确认任务。
2015年,伦敦机器学习会议上,VocalIQ 联合创始人和 CEO Blaise Thompson 描述 VocalIQ的工作原理
公司 CEO Thomson 说,VocalIQ 不仅要将机器学习技术应用到语音识别、文本—语音合成方面,还要用于口头(verbal)互动工具链的所有部分。
VocalIQ 不是将每一个语音互动视为完全分开的,它会从对话时长中吸取线索来提高理解力。在 Siri 可能重复预先写好的回答脚本,并要求用户确认的地方,他们的技术使用了递归神经网络(recurrent neural networks)来判定:(1)理解用户所说的概率;(2)基于所有给定的文本线索,这个概率是否足够高,继续还是回过头去问一个问题,搞清楚些。
它更像一个真正的助手,而不仅仅是语音搜索
VocalIQ 有几个基本技术:
- 噪声鲁棒性——先进的噪声鲁棒性系统可以确保所有输入在对话语境中得以解释,显著改善系统效果
- 快速成型——强健、灵活的设计意味着,软件开放商和合作方可以迅速成型,立刻接受到反馈,迅即展开部署。
- 平台架构——平台架构是一种延伸、云托管、混合系统,可以用补充新数据以及知识引擎。
- 互动学习—— 这一技术控制着研究深层部分,这部分驱动着被设计用来通过语言分析、语义学及文本进行学习的系统。
据介绍,VocalIQ 能够筛除额外的噪音,来辨识你在说什么,所以,它的准确度比当前的 Siri 要更高。它能够获取环境中所有的声音——电视、小孩的叫声,或者任何其它什么——然后选择最有可能是用户执行的那个声音。它甚至还能够渐渐学习适应不同的口音,来提高准确度。如果你曾有过难以让 Siri 理解你的经历,你会明白这有多么重要。
另外,VocalIQ 的平台十分灵活,使得它能被修改以做任何你想让它做的事,一个例子是,你能教它当手机在口袋里时,如何成功管理邮件(就像电影 Her 中 Joaquin Phoenix 扮演的角色控制他的手机一样。)理论上讲,苹果将能够使用 VocalIQ 来大大提高 Siri 完成任何任务的能力。
体验为先,内外整合
我们时常收购小型技术公司,一般来说,我们都不会讨论收购意图或计划。
在近期,曾出现了一些对于苹果在人工智能方面投入不足的质疑。谷歌在此前五月的大型年会上,展示了一些使用人工智能的华丽产品,包括 Google Home,一个内置数字助手的智能播放器。
科技界的知名技术人员 Marco Arment,此前在他的博客中评论到,苹果并没有赶上人工智能和语音平台的潮流,这可能导致苹果最终面临与黑莓相似的命运。
不过,客观地说,苹果并没有在其他竞争对手纷纷出招时,无动于衷。
Siri的三位创始人:Adam Cheyer、Dag Kittlaus、Tom Grube
其实,乔布斯生前已经强烈预感到了语音为先的新世界,这一预见甚至可能早于乔布斯对移动为先、PC革命的预见。
正是基于这一清晰的预见性,重病在身的乔布斯仍然完成了Siri 收购。他直接给 Siri 的创始人之一 Dag Kittlaus 打电话,最终说服他们将Siri团队带到了苹果。收购很快完成,2011年,Siri 搭载着 iPhone4s ,让世界惊艳。
Adam Cheyer记得,当乔布斯在All Things Digital 大会上被问及 Siri 是什么时,乔帮主斩钉截铁的说:「Siri 不是搜索公司,它是人工智能公司。」
我记得史蒂夫低头穿过公司餐厅,仿佛是在跟所有人说「走走走,现在别打搅我。」我和我的小伙伴当时正带着Siri的品牌徽章挂链,他路过的时候被这个吸引了。他抬头道:「Siri小伙伴,进展如何啦?」我们回答道一切顺利,我们在和不同团队交流。然后他意味深长地看了我们一眼说道:「我希望你们把这里当成你们的糖果店。」他认为,Siri是一项变革性技术,能够变革和整合苹果的方方面面。(Adam Cheyer)
苹果似乎也在不断增加 Siri 的能力,比如, iPhone 中内置了直接唤醒 Siri 的功能,而与新Apple Tv 的结合则给 Siri 找到了更多应用场景。
不过,过去几年 Siri 的发展并不令人惊叹。虽然 Siri 的创始团队走了大部分人,但是,Tom Gruber(上图最右边的一位),也是创造了Siri 技术的首席科学家,仍然留在苹果继续他的研究工作。或许这次 Siri 大幅度升级,会采用他的工作成果。
Adam Cheyer 曾经说过,苹果一直是他们期望的卖家,其中原因之一就是,苹果比其他任何一家公司都更关注用户体验,而 Siri 根本上是提升用户做事情的体验。
提升用户体验,苹果也有自己的方式:将内部创造出的技术与收购来的技术加以整合。公司也非常善于识别那些年轻、聪明的公司,并将这些创业公司整合到苹果核心当中(事实上,苹果有勇气在 VocalIQ 甚至还没发行它的手机应用前就将其收购,就是一个令人印象深刻的举动。)
从过去的收购记录来看,当一些技术可以嵌入现有苹果产品中时,苹果就会考虑收购。
比如,2006年,用于iTunes 的 CoverFlow ,2012年用于苹果商店搜索的Chomp,TouchID 的 Authentec,以及2013年用于传输地图数据的 Locationary, HopStop, 以及 Embark。
2015年苹果收购了几个非常重要的人工智能创业公司,也遵循着相同的策略:整合进既有苹果产品。
仅从近期公布于众的几次收购来看,Siri 团队可能正在考虑大幅度提升Siri系统功能(有人甚至称之为 Siri 2)。
Emotient(2016)
这家位于圣地亚哥的初创企业致力于通过面部表情分析来判定人的情绪。
Emotient利用人工智能扫描人脸,然后可在数秒钟内解读出他们的面部表情所代表的意义,这种技术过去主要是帮助广告商和销售人员判断消费者对广告或产品的反应。Emotient技术的关键是能够扫描人脸识别表情,但不会储存有关这些人的任何个人身份信息。对于许多初创企业来说,面部扫描技术的使用很容易引发隐私担忧。
Emotient 可以读取脸部43块肌肉运动,解码表情中暗含的情绪意图,可以帮助苹果产品更好地理解你的需求。无论是对机器学习,还是对苹果想要用人工智能实现的事情来说,这都相当重要。
技术研究公司 Jackdaw Research首席分析师 Jan Dawson 推测,苹果可能利用 Emotient的技术帮助其智能助理 Siri,以便其能在任何时刻都能为你挑选更好的应用。举例来说,苹果 iOS 9 中就包括 Siri 应用推荐功能:向下滑动主屏,你会看到 Siri 认为你即将会使用的4款应用。道森表示,苹果可能利用前置摄像头评估你的心情,并据此更主动地为你推荐应用。
Perceptio(2015)
就在确认收购 VocalIQ之前,苹果又确认收购了一家致力于人工智能的创业公司 Perceptio。外界认为,这将对提升 iPhone 的软件实力有所帮助。
Perceptio 的创始人尼可拉斯·平托(Nicholas Pinto)和扎克·斯通(Zak Stone)分别是哈佛大学和麻省理工学院的人工智能专业博士,研究领域为基于深度学习技术的图像识别系统,目前后者已经就职于苹果库比蒂诺总部。
Perceptio 主要专注于手机端的先进人工智能系统,可以在手机端执行人工智能图像识别系统,同时不需要依赖大量外部资讯。这种特性,十分符合苹果向来保护用户资料的政策,可以在降低搜集用户数据的情况下,更好的实现预期工作。
VocallQ(2015)
VocallQ 是一家英国剑桥的创业公司,开发了一款人机语音交互的软件,这个软件基于机器学习,利用这个软件,用户可以很自然地与计算机进行沟通,而且用户使用越多其精确性也越高,这恰恰也是包括 Siri 在内的多个人工虚拟助理所研究的领域。收购前,该公司的产品主要面向汽车领域,客户包括通用汽车等。考虑到苹果正在研发汽车(自动驾驶汽车),因此,苹果的此次收购对于将 Siri 迁移到汽车上意义重大。
如果苹果仅使用了 VocalIQ 一小部分的技术子集,我们就会看见一个先进得多的 Siri。不过,苹果内部技术,亦即 Tom Gruber 的研究或许也会被整合进 Siri 中。
另外, Emollient, Perception 以及其他并未公布的收购公司技术,也将成为苹果人工智能未来重要组成部分。
拭目以待
目前还不清楚,苹果何时会将 VocalIQ 的更多功能引入到 Siri上。一个信息源预测,这一过程可能会是循序渐进的,以避免剧烈变化会导致的用户流失。但是,现在看来,苹果已经准备大幅度改变 Siri 的运作方式了。
与此同时,Siri 还会在今年做出一些改进。根据 The Information 的 Amir Efrati 称,苹果会将 Siri 向开发者开放,就像亚马逊开放 Alexa 助手一样。这意味着,第三方的应用将能够让你通过语音完成一些任务。(例如「Siri,帮我叫一辆 Uber。」)
或许,在语音为先、语音商业时代,苹果会创造出强大得多的用户体验。
让我们拭目以待。