Adam Cheyer:Siri就是我的孩子,她还在成长

简介: Adam Cheyer无疑松了一口气。作为Siri的「亲生父亲」,Adam Cheyer见证了Siri从无到有、从无知到聪明的全历程。

2011年10月4日,当苹果公司向全世界展示搭载Siri的iPhone 4S并「调戏」Siri时,Adam Cheyer无疑松了一口气。作为Siri的「亲生父亲」,Adam Cheyer见证了Siri从无到有、从无知到聪明的全历程。此时的Adam Cheyer,不由得想起了乔布斯对于Siri的关注:


我记得史蒂夫低头穿过公司餐厅,仿佛是在跟所有人说「走走走,现在别打搅我。」我和我的小伙伴当时正带着Siri的品牌徽章挂链,他路过的时候被这个吸引了。他抬头道:「Siri小伙伴,进展如何啦?」我们回答道一切顺利,我们在和不同团队交流。然后他意味深长地看了我们一眼说道:「我希望你们把这里当成你们的糖果店。」他认为Siri是一项变革性技术,能够变革和整合苹果的方方面面。


不幸的是,iPhone 4S发布的第二天,乔布斯溘然长逝。


Adam Cheyer也不会忘记,当乔布斯在All Things Digital大会上被问及Siri是什么时,乔帮主斩钉截铁的说:「Siri不是搜索公司,它是人工智能公司。」


微信图片_20211125185111.jpg乔布斯在All Things Digital大会


这也是Adam Cheyer最终决定加入苹果的原因,并将Siri——这个凝聚了他近三十年来苦心研究的成果交给苹果。经过将近五年的精心培育,Siri却已成为这个星球上最赚钱公司的核心竞争力,在今天凌晨的苹果发布会上,Siri的重要性再一次被提及。通过将Siri与全新遥控器的结合,苹果公司几乎重新定义了电视机的使用体验。


微信图片_20211125185157.jpg


Siri 可以帮你挑电影,也可以随时调整播放进度、显示字幕等等:


微信图片_20211125185225.jpg


Adam Cheyer 没有机会看到这一切,虽然他对Siri仍然饱含热情,但早在2012年,Adam Cheyer就离开了苹果公司。


只是,他的传奇故事依然在江湖上流传。


与编程结缘


Adam Cheyer对于科技的着迷始于他上小学的时候。在当时,小Adam Cheyer每周只被允许看一个小时的电视,Adam Cheyer被最新款玩具的广告吸引,央求妈妈买一个。但他妈妈并没有如他所愿,而是送给了他一个纸箱子,「就是那种清洁工用来放衣服的箱子,一侧白色一侧是灰色。我找到胶带、胶水和剪刀,开始用这些来自己重新组装我想要的玩具,我做了机器人拳击赛,还有 鲁布·戈德堡机械(鲁布·戈德堡机械是一种被设计得过度复杂的机械组合,以迂回曲折的方法去完成一些其实是非常简单的工作,例如倒一杯茶,或打一只蛋等等——译者注。)」Adam Cheyer多年之后回忆道。


Adam Cheyer对魔术的着迷也让他从小就开始有了「创造神奇」的精神,他小就梦想着成为一名魔术师。十岁那年,他买了魔术的书和道具,收集了很多「破烂」箱子做辅助道具,开始在他朋友的生日聚会上表演魔术。Adam Cheyer说:「 我想我对人工智能的兴趣就来源于对魔术的热爱。追溯到18世纪的时候,魔术师们和钟表匠们发明了象棋博弈机、语音生产机以及其他机械机器人,这些发明的工作原理都想要去努力模仿一个绝妙的设计——人类大脑。」


微信图片_20211125185253.jpg


高中时,Adam Cheyer很意外地接触到编程。他被学校编程社团的招募广播吸引,当他兴冲冲的跑去报名时,却被学长们告知「这不是一个社团,而是一个竞赛团队。」——每周,社团参与者会收到六个编程问题,要在半个小时内通过计算机解决,其中前五名成绩将作为学校的团队成绩提交到国家相关机构。


对计算机一无所知的Adam Cheyer被刺激到了,他说道:「不能加入这个团队让我觉得生气又难堪……所以在每次比赛之后,我就从废纸堆里找到问题纸和被扔掉的课程资料,想要努力找出解决这些题目的方法。」


功夫不负有心人。几周之后,当Adam Cheyer再次申请时,他成功了。那个学期结束时,他在校队中排名第四。同时他也疯狂地爱上了这种比赛,最初是为了在每周的比赛中取得最高分,接着是为了用最少的代码行数解决那六个问题,然后则到了用最少量字母的阶段。到最后,Adam Cheyer和小伙伴们不断增加附属条件,比如不能使用任何条件表达式解决问题……


最初的被拒之门外,以及后来的激烈竞争,反而使他深深地感受到计算机编程的艺术与科学。


人生信条

如今,功成名就的Adam Cheyer在多场合推销他的方法论:VGG(Verbally Stated Goals,VSG)。这套方法论大约是在Adam Cheyer高中和大学期间形成的,Adam Cheyer曾这样解释所谓的VSG:「在每个重要关头,我专注于那时刻的核心目标:我将它具体化为任务,并用言语陈述出来;然后我告诉我遇到的每一个人我正在做什么。告诉别人我的VSG有两大作用:首先,在许多人面前陈述目标激励了我去努力完成;其次,当人们知道我在什么目标努力的时候,他们会想方设法帮助我。」


从布兰迪斯大学毕业后,Adam Cheyer萌生了了解世界的冲动。当时的Adam Cheyer除了美国东海岸哪里也没去过。因此,Adam Cheyer的VSG就是「拥有国际化的视野。」在一位朋友的帮助下,Adam Cheyer加入了一家总部在法国的公司。他被调往巴黎工作。Adam Cheyer在巴黎住了四年,工作之余,他自学了法语还完成了在欧洲的旅行。


微信图片_20211125185319.jpg

长大后的Adam Cheyer在舞台上展现魔法


四年后,Adam Cheyer决定将自己的VSG修改为:「去加利福尼亚的学校深造!」他回忆道:


我申请了美国西海岸沿线的每一所学院,从斯坦福到加利福尼亚大学圣迭戈分校。然而,我不想按照通常的做法花两三年去拿一个硕士学位。那太长了,并且每年的州外学费太高了。(在美国加州,非加州居民在就读加利福尼亚大学University of California 和California State University等公立大学时需要缴付比加州居民多3/4的学费)。


后来,加州大学洛杉矶分校回复说,最短的硕士学位是15个月但是他们愿意让Adam Cheyer尝试一下,Adam Cheyer最终进入这所学校学习。Adam Cheyer用了9一个月完成这些课程并顺利拿到了学位,还由于他的论文优秀,并评为「杰出毕业生」。


从研究者到公司人


Adam Cheyer事业的最重要一步是进入SRI,即斯坦福国际咨询研究所,是美国最大、最著名的民间研究机构之一,被推崇是「世界上具有第一流水平的研究所」。它是一个综合各学科的研究机构,主要为美国政府,尤其是国防部,以及工商企业从事范围广泛的研究,在美国国防、外交、经济、科研等方面都起着重要作用。Adam Cheyer认为,SRI在当时拥有了计算机研究的最高水平——「当时,时,它能让我做任何和计算机有关的互动,从语音识别、手写识别到各种的人工智能以及虚拟现实。」


1993年,Adam Cheyer在Phil Cohen 手下做第一个项目,Adam Cheyer将其称为开「放式代理人架构(OAA)」。彼时,真正的网页浏览器还未诞生,Adam Cheyer设想一个靠不断增长的任务分配式的网页服务(当时我们将这种设想称之为 「代理」 ),它通过不同的网页服务之间的竞争和合作,最后能将用户对其分配的任务完成。由于OAA实际上是一个整合型的技术,使得Adam Cheyer能和当时很多SRI的优秀人才一起共事。


接下来的六年时间,Adam Cheyer和几位同事David Martin、 Luc Julia、Didier Guzzon一起开发了五十多项应用,每一项都或多或少集成了OAA 里分制的集成技术。比如,智能冰箱能为你找寻新的菜谱,并在线采购缺少的材料;比如你能通过电视应用来控制你的家居家电,整理工作空间等等。你很难想象,这些如今看起来不过是某种物联网应用的东西其实早就存在于SRI的实验室了。


时间来到1999年,Adam Cheyer离开了他熟悉的实验室,进入一家名为Verticalnet上市公司担任工程部副总裁。对于这次跳槽,Adam Cheyer毫无掩饰的说「我那时候刚刚结婚,并希望能有钱买一所房子和养育自己的孩子。我认为SRI的工资可能负担不起这些。当时,一个在硅谷的破旧小房子就要卖一百万,这对于我来说是个无法负担的数字。」


重回实验室


Adam Cheyer再回到SRI时,开始主导一个名叫CALO的项目。从SRI到上市公司再到SRI,Adam Cheyer不断寻找真正的创新动力。在他看来,在AI实验室,大部分好的idea从没能被研发和应用到真实世界里,但是在商业领域,迫于股东压力,一个产品的立项和研发都有着精心的考量,然而这些都无法给技术带来阵阵的创新驱动。


而CALO看起来却与众不同——它是一个DARPA出资2亿美元赞助的项目。在5年时间里,有差不多400名来自全国各地的最聪明的人投入到这个项目中,它的目标很远大:把所有人工智能方面的人机互动接口整合成一个完整的类人的系统,还可以随着环境自我学习和完善。即使不作代码上的改动,系统也可以通过观察用户、人机交流和对所查所感进行自我反馈而变得更智能。



微信图片_20211125185356.jpg

CALO的愿景


不过当时,很多人并不看好 CALO 项目。斯坦福大学副教授,科技预言家 Paul Saffo 称:「人工智能的研究屡屡失败,困难重重,正当绝大多数人都认为研究它纯粹是在浪费时间之时,CALO 出现了。」


面对质疑声,CALO用科技的力量证明了自己的价值。人工智能领域有很多独立的分支,把它们整合到一起是一项无比艰巨的任务,但 CALO做到了。它们同时也证明了机器可以像人类一样从自身经历中不断学习。过去,人工智能软件的训练方式是 「in vitro」 型,即将机器学习算法用于一组固定的数据上,进而判断它处理信息的能力如何。而 CALO 则采用 「in vivo」 型,即通过让其处理一系列不受控制的信息来达到训练的目的。


CALO 的负责人之一David Israel表示「从任何角度看,这个人工智能项目都是史无前例的。」而Adam Cheyer将其称之为人工智能领域的「曼哈顿计划」。


Adam Cheyer的任务是将CALO项目下27支团队建造出的不同组件组合成一个完整的助理。每年,这个虚拟助理都要接受一次测试,来检验它在这一年的时间中都学到了什么。Adam Cheyer打造的这款虚拟助理(名字也是CALO)十分简陋,离消费者的电脑与手机还有很远的距离。但CALO已经可以完成许多原来只能由人类完成的任务了。


正是在CALO项目进程中,Adam Cheyer的Siri正在孕育。


冥冥之中的注定Siri


语音助手背后的大部分想法和技术已经以搜索形式存在好几十年了,但对于xx来说,突破的时刻是如何更进一步整合现有的产品。换句话说,如何让语音助手不再是AI实验室博士们的小众产品,要简单到每个程序员都能快速整合到自己软件中,随后进一步大规模地为全世界成千上万的人提供精确的服务。「在我看来,Siri是世界上第一个多领域,大规模应用的对话性的助手。我觉得我们实现了这个领域里一个不可企及的梦。」Adam Cheyer这样评价Siri的开创性创新。


其实,Adam Cheyer一直在探索各种版本的Siri,最初的版本或许可以追溯到1993年的(OAA)系统,这是一个在类似iPad平板电脑上运行的系统,给一组可扩展的网页服务和应用程序提供多模式(书写笔和声音)的界面,当时整合的很多功能都能在十几年后的iPhone 4S上找到「继承者」,比如电子邮件、日历、通讯录、电话、地图、提醒等等。Adam Cheyer不断优化他的「孩子」——加入神奇功能的同时剔除不需要的无聊服务。


Adam Cheyer对于Siri的技术前景很有信心,但他并不清楚投资人怎么看。当他和几个公司合伙人前往有「西海岸华尔街」之称的Sand Hill Road拜访VC时,VC们给予了极高的评价,Adam Cheyer回忆说「当时我一直等着VC们把我们赶出来,但他们一致表示『如果你能克服技术上的困难,在商业方面就没有问题。』。」


微信图片_20211125185455.jpgSiri的三位创始人:Adam Cheyer、Dag Kittlaus、Tom Gruber

VC的支持让Adam Cheyer坚定了创业的决心。Adam Cheyer开始攻克Siri处理人类语言模棱两可的难题。


当人类语音输入「在波士顿预订一家四星级的餐馆(book 4-star restaurant in Boston)」时?Siri怎么想?


微信图片_20211125185536.jpg


在美国,Book(预定)是一座城市的名字,Star(星级)也是。美国有八个叫做Boston的地方,我们说的到底是哪一个?Star Restaurant是一家餐馆的名字,可是这个例子中我不是在找一家叫做Star Restaurant的餐馆。我还记得第一次我们把这么多的数据源上传到Siri,我在系统里输入「重新开始(start over)」,Siri的回复是,「正在搜索路易斯安那州的Start城的Over公司」。


「下嫁」苹果


除了人工智能方面的技术,Siri还需要其他很多方面的技术突破。Adam Cheyer建立了一个本地的搜索引擎来应对所有的地理数据,一个数据处理框架来应对不同供应商的实时数据流,一个PCI兼容的可靠的存储系统来应对各种信用卡以及其他的个人信息。短短两年,作为初创企业,Siri的发展喜人。


此时,他们已经拿到B轮融资,第一版产品已经预装到多个品牌的手机。作为第三方应用软件的Siri说起话来语调非常随意,他/她「与众不同」、「对流行文化有粗略的了解」,还有一点点「冷幽默」。来看一下这组对话:



问:哪里有健身房?


Siri(带着嘲笑):「没错,你手机握得的确不太紧。」


问:「HAL最后怎么样了?」——HAL是斯坦利·库布里克(Stanley Kubrick)1968年指导的电影《2001:太空奥德赛》中一台有头脑(还有谋杀倾向)、会说话的电脑;


Siri(会不高兴地回你一句):「我不想谈这件事。」



2010年,Siri也加入到苹果App Store里。突然有一天,他们接到一个电话:「我是史蒂夫。你们明天有事么?来我家谈谈?」


回忆起当时的情形,Adam Cheyer表示苹果一直是他们期望的卖家。他列举了三点:1)苹果比其他任何一家公司都更关注用户体验,而我们根本上是提升用户做事情的用户体验。我们的技术加上苹果的视觉设计,我们能创造出真正神奇的东西。2)苹果凭借iTunes绑定了比亚马逊及其他任何一家公司都多的信用卡。Siri提醒你买电影票、约定旅馆、买音乐会或体育盛事门票,促成用户购买的最大障碍(譬如要信用卡卡号)就被扫除了。3)苹果的用户群很大且与日俱增,并且开发者群体广泛。


一次接受采访时,Adam Cheyer表示:「我们开始做这个公司,就是想要改变世界。我们刚出发的时候,有一次在苹果店的墙壁上看到各个应用大佬的图标,Facebook、Twitter 、Foursquare等等,当时,我们就想,有一天我们Siri也会在那面墙上,和那些大佬一起。」


但正如科技媒体PingWest所言:从改变世界这个结果来说,也许被苹果收购后,效果要好得多,它成为了iPhone 4S最耀眼的功能之一,被千千万万的iPhone用户所熟悉。而Adam所说的那个愿望——出现在苹果店的大墙上,也以他们原来都没想到的方式出现了:Siri直接出现在了苹果店的门上,一个大大的标识,而每个苹果店员都在向顾客介绍它。


在被收购后,Adam Cheyer成为苹果iOS部门的工程主管。两年后,他离开苹果。虽然他并没有公开表示他离开的原因,但他曾这样说道:「在乔布斯去世后,苹果公司发生了一些变化。如果乔布斯还在的话,我或许不会离开。」


Siri就像个孩子


在iPhone 4S的新闻发布会上,世界感受到了Siri的魔力。


「你是谁?」 苹果的一位高管问。


「我是您忠实的助手。」 Siri的回答引来观众的会心一笑。

微信图片_20211125185606.jpg

此时,他们已经拿到B轮融资,第一版产品已经预装到多个品牌的手机。作为第三方应用软件的Siri说起话来语调非常随意,他/她「与众不同」、「对流行文化有粗略的了解」,还有一点点「冷幽默」。来看一下这组对话:



问:哪里有健身房?


Siri(带着嘲笑):「没错,你手机握得的确不太紧。」


问:「HAL最后怎么样了?」——HAL是斯坦利·库布里克(Stanley Kubrick)1968年指导的电影《2001:太空奥德赛》中一台有头脑(还有谋杀倾向)、会说话的电脑;


Siri(会不高兴地回你一句):「我不想谈这件事。」



2010年,Siri也加入到苹果App Store里。突然有一天,他们接到一个电话:「我是史蒂夫。你们明天有事么?来我家谈谈?」


回忆起当时的情形,Adam Cheyer表示苹果一直是他们期望的卖家。他列举了三点:1)苹果比其他任何一家公司都更关注用户体验,而我们根本上是提升用户做事情的用户体验。我们的技术加上苹果的视觉设计,我们能创造出真正神奇的东西。2)苹果凭借iTunes绑定了比亚马逊及其他任何一家公司都多的信用卡。Siri提醒你买电影票、约定旅馆、买音乐会或体育盛事门票,促成用户购买的最大障碍(譬如要信用卡卡号)就被扫除了。3)苹果的用户群很大且与日俱增,并且开发者群体广泛。


一次接受采访时,Adam Cheyer表示:「我们开始做这个公司,就是想要改变世界。我们刚出发的时候,有一次在苹果店的墙壁上看到各个应用大佬的图标,Facebook、Twitter 、Foursquare等等,当时,我们就想,有一天我们Siri也会在那面墙上,和那些大佬一起。」


但正如科技媒体PingWest所言:从改变世界这个结果来说,也许被苹果收购后,效果要好得多,它成为了iPhone 4S最耀眼的功能之一,被千千万万的iPhone用户所熟悉。而Adam所说的那个愿望——出现在苹果店的大墙上,也以他们原来都没想到的方式出现了:Siri直接出现在了苹果店的门上,一个大大的标识,而每个苹果店员都在向顾客介绍它。


在被收购后,Adam Cheyer成为苹果iOS部门的工程主管。两年后,他离开苹果。虽然他并没有公开表示他离开的原因,但他曾这样说道:「在乔布斯去世后,苹果公司发生了一些变化。如果乔布斯还在的话,我或许不会离开。」


Siri就像个孩子


在iPhone 4S的新闻发布会上,世界感受到了Siri的魔力。


「你是谁?」 苹果的一位高管问。


「我是您忠实的助手。」 Siri的回答引来观众的会心一笑。

微信图片_20211125185648.jpg


当把「你亲手所创的科技被全世界成千上万的人时时使用,是一种什么体验?」这一个「知乎体」的问题抛出来时,Adam Cheyer这样回答:


任何软件工程师的终极渴望之一就是做出来的东西可以被使用,可以影响世界,把世界变的更好。如果你能为你的母亲解释清楚这是做什么的,那就更好了。我在这两方面比许多人都幸运的多,我很感激天时地利人和使得我的想法(还有我写的代码)能够如此成功实现这些。而Siri,在细微处改变了用户对于信息、移动设备交互方式的期待,他会在用户手里继续成长,变得更聪明。


如今,Adam Cheyer另外两家公司Change.org 和 Genetic Finance的发展势头良好,Change.org的用户数量将突破一亿,而基于大规模分布式机器学习(massively-distributed machine learning)的使用,Genetic Finance非常有可能在药物和基因方面有重大进展。


而Adam Cheyer对Siri的感情最深厚:


「如果把Siri想成是一个人,我认为我在他的生活中扮演的角色就像是他的父亲:想给他最好的生活、教育他,有时候她会很多要求,很烦人,还会很沮丧,但是很爱他,为他每一次优异表现而自豪。」

相关文章
|
3月前
|
自然语言处理
从头设计抗体,腾讯、北大团队预训练大语言模型登Nature子刊
【9月更文挑战第12天】近年来,抗体药物在生物医药领域展现出巨大潜力,但其高昂的研发成本和漫长周期成为瓶颈。为此,腾讯与北京大学合作开发了PALM-H3,这是一种基于预训练大语言模型的创新抗体设计方法。PALM-H3将抗体序列视为语言,利用Roformer模型学习其生成规律,实现从头设计高亲和力抗体,不依赖自然抗体,大幅提高研发效率和灵活性。此外,该方法还可广泛应用于疫苗设计和蛋白质工程等领域,加速新药上市。然而,确保抗体体内稳定性和安全性仍是挑战。论文详见:https://www.nature.com/articles/s41467-024-50903-y
56 1
|
5月前
|
机器学习/深度学习 数据采集 人工智能
算法金 | 致敬深度学习三巨头:不愧是腾讯,LeNet问的巨细。。。
**LeNet 摘要** - LeNet 是 Yann LeCun 在 1989 年提出的卷积神经网络,用于手写数字识别,是深度学习和计算机视觉的里程碑。 - 网络结构包括卷积层(C1, C3, C5)、池化层(S2, S4)和全连接层(F6),处理 32x32 灰度图像,最终分类为 10 类。 - 卷积层提取特征,池化层降低维度,全连接层负责分类。激活函数主要使用 Sigmoid。 - LeNet 在 MNIST 数据集上表现优秀,但现代网络常使用 ReLU 激活和更深结构。 - LeNet 的局限性包括网络较浅、Sigmoid 梯度消失问题和平均池化,但其创新为后续 CNN 发展铺平道路
68 1
算法金 | 致敬深度学习三巨头:不愧是腾讯,LeNet问的巨细。。。
|
6月前
|
人工智能 安全 iOS开发
苹果与OpenAI的合作及马斯克反对的原因
苹果与OpenAI的合作及马斯克反对的原因
|
6月前
|
机器学习/深度学习 人工智能 算法
ChatGPT如何思考?心理学和神经科学破解AI大模型,Nature发文
【6月更文挑战第5天】Nature文章探讨了人工智能,尤其是ChatGPT这类大型语言模型(LLMs)的思考机制。随着AI复杂性的增加,理解其决策过程成为挑战。可解释AI(XAI)领域致力于揭示这些“黑盒子”的工作原理,但LLMs的规模和潜在问题(如错误信息和隐私泄露)使这一任务更具紧迫性。研究人员借助心理学和神经科学方法尝试理解模型决策,但目前仍处于早期阶段,且有争议认为模型可能只是模拟而非真正理解文本。
98 1
|
机器学习/深度学习 人工智能 自然语言处理
养成女友?我训练出了一个“杨超越”聊天机器人
养成女友?我训练出了一个“杨超越”聊天机器人
229 0
|
机器学习/深度学习 人工智能 TensorFlow
谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星
谷歌大脑深度学习调参(炼丹)指南出炉,Hinton点赞,一天收获1500星
201 0
|
机器学习/深度学习 Web App开发 自然语言处理
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
强化学习大牛Sergey Levine新作:三个大模型教会机器人认路
323 0
|
机器学习/深度学习 人工智能 缓存
AI_Papers周刊:第五期
我们研究了语言模型中的上下文学习 (ICL) 如何受到语义先验与输入标签映射的影响。我们研究了两种设置——带有翻转标签的 ICL 和带有语义无关标签的 ICL——跨越各种模型系列(GPT-3、InstructGPT、Codex、PaLM 和 Flan-PaLM)。
189 0
|
机器学习/深度学习 人工智能 自然语言处理
AI_Papers周刊:第三期
我们介绍了 LLaMA,这是一组基础语言模型,参数范围从 7B 到 65B。我们在数万亿个令牌上训练我们的模型,并表明可以仅使用公开可用的数据集来训练最先进的模型,而无需诉诸专有和不可访问的数据集。特别是,LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B),而 LLaMA-65B 可与最佳模型 Chinchilla70B 和 PaLM-540B 竞争。我们将所有模型发布给研究社区。
85 0
|
机器学习/深度学习 编解码 自然语言处理
AI_Papers周刊:第六期
大型语言模型 (LLM) 因其令人印象深刻的能力而广受欢迎,但对特定于模型的微调或特定于任务的提示工程的需求可能会阻碍它们的泛化。我们提出了 UPRISE(用于改进零样本评估的通用提示检索),它调整了一个轻量级且多功能的检索器,该检索器可以自动检索给定零样本任务输入的提示。
165 0