【深度】Siri之父明天发布的“超级大脑”Viv,是 AI 终极形态?

简介:

2016 年5月9日,对,就是明天,号称“超级大脑”(The Global Brain)的人工智能平台 Viv 即将问世。Viv 的开发者 Dag Kittlaus 和 Adam Cheyer 不是别人,正是“Siri 之父”,是他们率领团队研发出 Siri,而后这款产品被苹果收购。很多科技界人士认为,以 Viv 为代表的人工智能技术将引发计算范式的革命,改变电子商务模式。科技调研公司 Forrester 的移动商务专家 Julie Ask 告诉《华盛顿邮报》,接下来的5年中,这种计算范式改革将把智能手机、智能家居、智能汽车等设备全部转变为拥有语音交互能力的智能助理。


有外媒称 Viv 是今年出自新创公司最受期待的人工智能技术之一。确实,不下载 App、不输入文字、不拨打电话、甚至不按键盘,只用语音就能完成服务,一直是工程师追求的目标之一。Viv 团队今年接受《华盛顿邮报》采访时,现场演示了 Viv 与4个人进行多轮自然语音交互,然后让4份不同的披萨成功送达。《华盛顿邮报》记者评论称,从某种程度上说,Viv 的创始人属于图灵测试最坚定的拥护者,他们就是想要打造一款说起话来跟人无异的机器。


根据开发人 Kittlaus 介绍,Viv 能自我学习,能依用户个性偏好和近乎无限的网络连接,从而几乎能够回答所有问题、执行任何功能。换句话说,你可以一口气告诉 Viv:“我要买XX电影院的XX电影票,另外预订XX餐厅。哦,对了,提醒我订一束鲜花后天送给我妈妈。” 而 Viv 都能帮你实现——这对人工智能技术的要求非常高,目前市面上还没有产品能做到。不仅如此,如果你要订的电影票卖完了,Viv 会自动向你推荐另一家有票的电影院,再不行就根据你的喜好推荐别的影片。要是你临时有事去不了,Viv 还会帮你打理退票事宜,最后把结果告诉你。


著名人工智能专家、艾伦人工智能研究所负责人 Orenz Etzioni 在参观了 Viv 早期模型后说:“如果这个团队能取得成功,这将是智能机器人的未来,将是一个数十亿美元的产业。”



Viv 公司CEO、原 Siri 研发团队的 Dag Kittlaus 展示新作 Viv。图片来源
:chicagotribune.com


在提问前就知道你想问什么


虽然 Viv 团队从4年之前就开始默默研发,但谷歌、Facebook、亚马逊等公司都在去年宣布要开发智能助理,意欲在这场决定下一代人工智能技术的军备竞赛中抢占先机;看现在的局面,这些科技巨头可谓后发而先至。不仅如此,这场赛跑中各个企业的终点并非打造一款强劲的人工智能产品,而是想成为连接消费者和商业服务的终极接口


谷歌搜索引擎是第一代这样的平台,智能手机的出现让消费者转向移动互联网,于是谷歌和苹果便推出各自的 App Store,争夺移动互联网的入口份额。但是,App 分析公司 ComScore 和 App Annie 统计结果显示,消费者对 App 尤其是新 App 的热情正在消减。据 2015 年 Forrester 的调查数据,如今移动用户 80% 的时间都只用在5个 App 上面,眼下要推出一款受欢迎的 App 难度比以前高了很多。不少产品经理也认为,让用户在多个 App 之间(来回)跳转很不方便,需要记太多密码、每天收到大量(无用)通知也有碍用户体验。尽管如此,就像 PC 端软件没有消失一样,App 也大有可能继续占有一席之地。但整个市场正在大幅扩张,究其原因,就是虚拟智能助理的出现。


Kittlaus 在接受《华盛顿邮报》采访时表示,市面上已经有的虚拟智能助理各有缺陷。2014 年,科技记者 Steven Leny 在 Viv 研发中期去公司参观时,Cheyer 告诉 Leny:Google Now 拥有巨量的知识图谱——你可以问它“亚伯拉罕·林肯在哪里出生?”它会告诉你那城市的名称;你也可以问它,某个城市有多少人口,它会显示出一个图表并回答你;但你不能问它“亚伯拉罕·林肯出生的那个城市有多少人口”,因为 Google Now 系统尽管拥有城市和人口的数据,但它无法整合数据,只能做程序员明确为它编程的事情。


Leny 参观后在报道中写道,Viv 打破了这些限制,它可以一边工作一边产生自己的代码,不需要程序员介入。当收到像“给我预定去达拉斯的机票座位,要那种能装下鲨鱼奥尼尔的座位”这种命令时,Viv 会分析句子并上演它最擅长的把戏:自动产生一个快速高效的程序,连接航班网站 Kayak、选座网站 SeatGuru 和 NBA 传媒等各种第三方信息,这样它就可以找到一个拥有足够宽敞的座位的航班,而完成这一切只需要几分之一秒。


Kittlaus 和 Cheyer 希望把 Viv 打造成一个智能开放平台,能让企业和应用都接入它的“大脑”。Kittlaus 告诉 Leny ,要实现这一点的技术屏障很小,只需要经过简单的、有时才几分钟的“训练”,让 Viv 理解所要处理的具体领域的专业术语即可。当 Viv 的知识增长时,理解力也会增长。Viv 在设计上基于3大原则:世界将教它获取知识,它将学会比世界教它的更多的知识,它将每天都学到新的东西。这种学习过程涉及到使用复杂的算法诠释使用系统的人的语言和行为——用的人越多,它就会变得越聪明。通过知晓用户是什么样的人,以及他们在接受什么样的服务,Viv 可以在海量数据中进行筛选,找出连接和处理信息的新方式。


Kittlaus 说,最终 Viv 将能够在你提问前就知道你需要什么。他设想,当某个人凌晨两点在吧台前手脚不稳地对手机说“我喝醉了”的时候,Viv 能立即联系这个人平时爱用的出租车公司,让该公司派车到这里来,并指引司机把这个半昏半醒的人送回家,用户不需要做更多的事情。


CALO →Siri→Viv


Viv 团队现在共有 26 人,核心骨干从 2003 年起就开始做这方面的研究。当时 Viv 团队的技术灵魂人物 Adam Cheyer 在美国政府资助的非盈利机构 SRI International 工作,领导 DARPA 下属 Personal Assistant that Learns 项目,联合全美 25 所顶尖高校研发,目标是建立一个“像人一样能感知世界、理解世界、进行推理、计划、沟通和行动的系统”。经过5年,这个 SRI 团队制作了“能进行学习和组织的认知助理”(Cognitive Assistant that Learns and Organizes),简称 CALO,在自然语言理解等若干方面树立了人工智能的高水平纪录。CALO 派生了出一系列创业项目和产品,其中最著名的就是苹果 iPhone 虚拟语音助理 Siri。


2008 年项目结束后,Cheyer 正在考虑接下来要干什么。这时刚从摩托罗拉离职的 Kittlaus 作为 SRI 入驻企业家出现了。Kittlaus 看到 CALO 的原型后,告诉 Cheyer 自己绝对能从 CALO 发展出生意来,并认为 CALO 是对当时刚发布的 iPhone 的完美补充。于是,2007 年在 SRI 的支持下,Kittlaus 和 Cheyer 用这一技术成立公司,并引入人工智能专家 Tom Gruber 作为第3位创始人。不久后,在 CALO 工作表现杰出的 Chris Brigham 也加入了这个团队。最终,他们把做出来的 iPhone App 叫做“Siri”——挪威语中引领人类走向胜利的女神。


当苹果在 2011 年 10 月发布 iPhone 4S 时,各种新闻头条关注的都是 Siri。她对人的话语的理解方式和回应几乎像人一样。这样一种人工智能的进步看起来似乎把我们推上了向奇点挺进的快车道。但随着时间推移,Siri 的局限性愈见显露。要她去订机票,她会指向旅游网站,但不会提供航班信息,更不会为你预订座位。要她去购买一本苹果商店正在销售的书,她会无言以对。她知道如何检查你的日历,也知道如何使用 OpenTable 为你预留座位,但要把这些事情整合起来就超出了她的能力范围。



如今只能被称为虚拟语音助理的苹果 iPhone Siri。但 Siri 作为独立 App 发布时,创始人本想用它重塑移动商务模式。图片来源:dustmoon.com


Kittlaus 在接受多家外媒采访时都表示,他们当初并不是想把 Siri 做成聊天机器人,而是想以此重塑移动商务模式。2010 年2月,Siri 作为一款独立 App 发布时,你可以用它买票、订餐、打车,全程无需搜索或下载其他 App,那时候的 Siri 能从 Yelp、StubHub、Google Maps 等 40 多家网站抽取数据。Siri 发布3周后,乔布斯就给他们打电话,说想要买下这家公司。最初他们拒绝出售,但乔布斯坚持要买。据《华盛顿邮报》报道,乔布斯邀请 Kittlaus 和 Cheyer 两人去他家,3人在炉火旁长谈了3小时,两人离开乔布斯家时都确信他们享有同样的愿景——但事实证明并非如此。


2010 年 4 月,苹果以 200 万美元购买了 Siri 公司,原来的 Siri 研发核心成员也跟随项目去了苹果。但根据《连线》报道,他们虽然努力把 Siri 锤炼成数百万用户能以多种语言来使用的产品,但苹果方面另有打算。次年,Kittlaus 就辞去了 iPhone App 总监的职位,并在 iPhone 4s 发布会的第二天离开了公司,那也恰好是乔布斯去世的当天。几个月后 Cheyer 也离开了。“我确实觉得,如果乔布斯还活着,我可能还会留在苹果,” Cheyer 告诉 Leny:“其他话我就不说了。”(Siri 的第3位创始人 Gruber 留在了苹果。)


2012 年秋天,Kittlaus 与 Chris Brigham 联合成立了 Viv 公司。随后,包括 Cheyer 在内的原 Siri 开发团队成员,三分之一都陆续从苹果离职,跑来跟着 Kittlaus 开发 Viv——拉丁语中意为“生命”。


“我对 Siri 以及它对世界所产生的影响非常骄傲。不过在许多方面它还可以做得更好,”Cheyer 离职后接受采访时说:“现在我要做一件比移动端、比消费者、比桌面端或企业更大的事。我想要做一件能从根本上改变软件开发方式的事情。”


“我要做比移动端、消费者、桌面端和企业更大的事情”


在 Viv 公司成立前,Kittlaus 、Cheyer 和 Brigham 曾聚在一起讨论,5年之后的世界将是什么样的。 Brigham 想到做一个程序,用新的方式把 Siri 知道的那些东西整合起来。他们想到了“基于云的智能”,一个“全局性的大脑”的概念,而要让这个语音助理变得无处不在,唯一的办法是把它向第三方开放,让每个人都能接入它使用它。



(从左到右)Viv 创始人 Adam Cheyer、Dag Kittlaus 和 Chris Brigham 意欲让人工智能无处不在。他们创造的 Viv 可以理海量信息、自主学习,能一工作一边产生自己的代来源:Wired


Cheyer 和 Brigham 找来了人工智能和编程界的专家充实他们的团队。为了生成一些最困难的部件——能让 Viv 理解语言并为自己编写程序的构架——他们从得克萨斯大学达拉斯分校引入了 Mark Gabel。之后引入的另一位关键人物是 David Gondek,他是 IBM Watson 的创造者之一。


Viv 公司的投资则来自周凯旋,她是李嘉诚的合作伙伴。周凯旋经营的维港投资风投公司曾投资了 Facebook,DeepMind 和后来被 Yahoo 收购的 Summly,它也资助过初始时期的 Siri。当 Viv 的创始人向周凯旋联系 1000 万美元的投资时,她说:“我投。要我现在把钱打给你吗?”


维港投资顾问 Bart Swanson 也参与投资了 Siri、Viv 等多个智能技术产品,Swanson 告诉《华盛顿邮报》记者,Kittlaus 和 Cheyer 想让 Viv 实现当初 Siri 没有做到的事情——成为一个开放的系统。TechCrunch 推广 Disrupt NY 2016(译注:Viv 就在这个会上发布)的文章里也提到,Kittlaus 和 Cheyer 想让人工智能融入所有的 App、系统和体验


一条直抵消费者的通路


目前,Viv 已经跟 Uber、鲜花公司 FTD 和智能家居平台 Ivee 达成合作。同时,Kittlaus 还在跟更多商家和智能家电制造商交涉,希望能够把他们的数据都整合到 Viv 这个平台里。但是,Kittlaus 等人并不认为 Viv 是个与智能硬件绑定在一起的产品,而是把它看作一种服务。他们想象从电视制造商到汽车公司再到 App 研发者,每个人都想要纳入 Viv 的人工智能,就像当年 PC 厂商争相以内置 Intel 微处理器为荣一样。他们希望 Viv 的图标能像开机图标、WiFi 和蓝牙一样人人熟知。


Kittlaus 跟 Leny说:“人工智能将成为一种日常服务。想想吧,通过它,你能与身边每一件东西对话,而且它认识你、知道关于你的每一件事,能为你做任何事。这不是很棒吗?”


确实很棒,因为这将为 Viv 带来商业模式。Kittlaus 认为,Viv 将成为他所说的“推介型经济”(Referral economy)中的重要工具。他引用约会网站 Match.com 的CEO的说法:“Match.com 无法去对用户说,‘让我为你订票吧。需要我为你预定餐桌吗?需要我去约一辆 Uber 去接她吗?需要我去叫人把花送到餐桌前吗?’”而 Viv 能提供所有这些服务,作为交换 Viv 可以从交易费用中分成。


送餐公司 Grubhub 的负责人对《华盛顿邮报》说,他愿意在自己的产品里加入第三方提供的智能语音交互技术,因为现在消费者接触商家的主要渠道是苹果和谷歌的 App Store,而 Viv 则提供了一条绕过 App,直接通往消费者的道路


然而,愿景虽好,实际建立这样的生态系统将是困难的任务。如今,Viv 公司遭遇和6年前类似的情景:谷歌和 Facebook 都开价想要收购 Viv。此外,根据《卫报》报道,Viv 公司成立时,投资方也包括 Iconiq Capital,而后者负责管理扎克伯格的资金。因此,也不排除将来 Viv 被某家公司收购的可能。关于这一点,Kittlaus 在 2014 年和 2016 年接受媒体采访时都表示,他们的目标是让 Viv 无处不在,能肯定的是,他们一定会做到这一点。


连“超级大脑” 都无法回答的问题


现在,市场已经跟 Kittlaus 和 Cheyer 发布 Sir i时大不相同了。亚马逊在 2015 年推出了语音虚拟助理 Alexa,也为第三方开放了接口。而且,Alexa 不仅绕过了 App,还可以说是绕直接过了搜索引擎和智能手机:你能用 Alexa 在 Uber 订车,让它给告诉你实时路况信息、为你读新闻、报天气甚至学狗的叫声。与此同时,Facebook 力推智能助理 M,同样预计把后者做成一个用户和商家的接口,就像中国的微信和欧洲的 Telegram 那样。还有从事了几十年人工智能研究的微软,最近明确将其智能语音助理 Cortana 定位在商务领域。


另一方面,也有人在往不同方向在努力。谷歌的虚拟助理项目 Google Now 的负责人离职后,自己创建了 Wand Lab,这里的产品不使用语音交互,而且每次只传递一点点信息,比如你发送一个图标给朋友,对方收到后点击图标就能直接听歌(无需跳转到相应音乐播放 App),或者登录你家的 WiFi(不用手动输入密码)。Wand Lab 的 CEO Vishal Sharma 对《华盛顿邮报》记者说,有时候点击就是比说话更方便


Sharma 的观点不无道理,虽然用语音交谈是人类获取信息和服务最自然的方式之一,各大科技巨头也都在围绕智能语音交互技术抢占所谓的入口(除了使用文字输入的 Facebook 的 M),再加上人工智能和海量数据的支持,智能语音助理有很大希望成为上亿人使用商业服务和互联网的入口。不过,消费者也有可能使用不涉及对话的产品:微信有文字和语音两种输入方式,至少现在看并不存在语音取代文字输入的问题——而消费者任何看似微小的行为改动都有影响整个业界的潜力。


此外,在 Viv 实现其开发者的愿景前,它还必须证明它为自己生产代码的能力能够规模化以处理数千万亿字节的数据,必须持续通过广泛的学习让自己变得更聪明,必须在缺乏像 谷歌或苹果等大公司既有庞大用户群的前提下赢得用户。Viv 还必须能吸引开发者,而那些人早就疲于将 App 实现于不同的平台了。最后,Viv 还必须让人觉得它善解人意、聪明能干,这样人们才会愿意把个人信息分享给这个可能会成为他们生活中重要力量的机器人。


Siri 之父确信 Viv 的出现将会使其他虚拟智能助理黯然失色,并想让其称为各种产品和应用的“大脑”。不过,这一切是否会发生,什么时候发生,是个连 Viv 自己也无法回答的问题。


文章转自新智元公众号,原文链接

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
3月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【8月更文挑战第1天】在当今科技飞速发展的时代,AI已成为日常生活中不可或缺的一部分。神经网络作为AI的核心,通过模拟人脑中的神经元连接方式处理复杂数据模式。利用Python及其强大的库TensorFlow,我们可以轻松构建神经网络模型。示例代码展示了如何建立一个含有两层隐藏层的简单神经网络,用于分类任务。神经网络通过反向传播算法不断优化权重和偏置,从而提高预测准确性。随着技术的进步,神经网络正变得越来越深、越来越复杂,能够应对更加艰巨的挑战,推动着AI领域向前发展。
50 2
|
1月前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
51 1
|
2月前
|
机器学习/深度学习 人工智能 TensorFlow
神经网络深度剖析:Python带你潜入AI大脑,揭秘智能背后的秘密神经元
【9月更文挑战第12天】在当今科技飞速发展的时代,人工智能(AI)已深入我们的生活,从智能助手到自动驾驶,从医疗诊断到金融分析,其力量无处不在。这一切的核心是神经网络。本文将带领您搭乘Python的航船,深入AI的大脑,揭秘智能背后的秘密神经元。通过构建神经网络模型,我们可以模拟并学习复杂的数据模式。以下是一个使用Python和TensorFlow搭建的基本神经网络示例,用于解决简单的分类问题。
49 10
|
6月前
|
存储 人工智能 自然语言处理
掌握AI摘要技术解锁个人第二大脑
掌握AI摘要技术解锁个人第二大脑
188 0
|
机器学习/深度学习 人工智能 编解码
人脑90%都是自监督学习,AI大模型离模拟大脑还有多远?
人脑90%都是自监督学习,AI大模型离模拟大脑还有多远?
214 0
|
数据采集 人工智能 数据可视化
AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像
AI读脑炸裂!扫描大脑画面,Stable Diffusion逼真复现图像
187 0
|
人工智能 边缘计算 安全
【年终特辑】看见科技创新力量 洞见时代创业精神—航空航天—星测未来:给卫星装上AI大脑瞄准卫星智能化专业市场
【年终特辑】看见科技创新力量 洞见时代创业精神—航空航天—星测未来:给卫星装上AI大脑瞄准卫星智能化专业市场
186 0
|
存储 机器学习/深度学习 人工智能
模拟大脑功能,这个AI模型真正实现像人一样持续学习
模拟大脑功能,这个AI模型真正实现像人一样持续学习
170 0
|
机器学习/深度学习 人工智能 自然语言处理
上海数字大脑研究院首次发布《2022上半年度人工智能行业报告》,多层面深度分析全球AI发展
上海数字大脑研究院首次发布《2022上半年度人工智能行业报告》,多层面深度分析全球AI发展
239 0
|
人工智能 自然语言处理 机器人
Siri太笨,根本打不过ChatGPT!苹果加急测试语言生成AI
Siri太笨,根本打不过ChatGPT!苹果加急测试语言生成AI
110 0
下一篇
无影云桌面