控制的欲望,Siri引发人机交互新革命

简介:      如何让他人按照自己的思想去做事,这是人类千百年来都在思考的问题,上到千古帝王,下到黎民百姓都不免有或强烈或温和的控制欲,但人心实在是个复杂的东 东,比任何学科的逻辑都要复杂,以至于这种控制欲到最后只能归结为利用外部资源换来的一种假象,“不听我的话,就扣你绩效”已然是...

 

   如何让他人按照自己的思想去做事,这是人类千百年来都在思考的问题,上到千古帝王,下到黎民百姓都不免有或强烈或温和的控制欲,但人心实在是个复杂的东 东,比任何学科的逻辑都要复杂,以至于这种控制欲到最后只能归结为利用外部资源换来的一种假象,“不听我的话,就扣你绩效”已然是最高级的一种控制,至于 那些所谓意见领袖的言论,普通人只不过当做消遣罢了,就好比80后意见领袖韩寒曾自嘲到“我曾说过亚洲男人老二的平均长度是低于世界水平的,但也没见过有 谁去整形医院去加个长啊!”

   人类是没有能力约束自己的欲望的,事实上,约束欲望本身就是错误和不现实,绝大多数的欲望被科技转换成了另外一种表现形式:人类有体验犯罪的欲望,于是有 了开心农场,全国网民都来偷菜;女生们渴望翩翩起舞,于是劲舞团风靡让网吧的“空格”成了最受伤的按键;小人物梦想着顶礼膜拜,于是角色扮演类游戏赚得盆 满钵溢……当人类渴望交流,渴望有人能完全纯净地接受自己命令,则出现了大量的语音识别软件,Google的Voice Action、独立的Vlingo,还有被广大果粉寄予厚望的iPhone4S之Siri.

   感慨到此为止,书归正传,来谈谈不久前iPhone4S发布会上压轴的语音控制软件—Siri,在苹果强大的光芒映衬下,它显得如此平凡,但这款能帮用户找到romatic餐厅的私人助理,有可能成为人机交互进化史上的一座里程碑!

 Siri是神马:果粉们的私人小助理

   坦白讲,iPhone4S是苹果公司近年来为数不多的败笔之一,他让望眼欲穿的果粉感到失望和气愤,当然,最悲催的还是前卫的山寨厂商“尼玛的,这不是坑 爹啊,我iPhone5都做出来了!”而在这种阴霾的背景下,iPhone4s依旧热销,恐怕只有两个原因,一个就是乔布斯安详辞世,另一个则是Siri 的横空出世!

   乔布斯去世的那点事,不再赘述,总之,帮主生前改变了IT界,死后则改变了出版界;iPhone4S热销的另外一个重要原因—Siri则被《时代》周刊评 为2011年最伟大的50项发明之一,它让iPhone4S从智能手机升级成智能机器人,不断刺激着人类敏感的神经,正引发着越来越多的讨论:弄不好,这 个小东西真能引发人机交互的革命呢?

   Siri已经超越了语音识别软件的范畴,它能够通过上下文来理解自然语言的意思,用户可以命令它阅读短信,询问天气和语音设置闹钟等,更加人性化的是,一 旦你和Siri开始了一段对话之后,它甚至可以理解许多模糊和引申的语义,例如果粉在说出了Kobe、Basketball等词汇之后,Siri会提示说 “现在的NBA正处于停摆阶段,科比正赋闲在家呢”,随后会自动调用劳资纠纷最新进展,当然,最经典的例子还是那个Siri寻找romatic餐厅的故 事:
Customer: I like a romantic place for Italian food near my office.
Siri: I am looking for a Italian restaurants which reviews say are romantic near your wok in San Jose…“
这个故事告诉我们,Siri听懂了Romatic是个形容词,并且知道Near my office是个地方,更重要的是它能判断搜寻到的餐厅是否romatic,这点要比一些不懂风情的小伙子们强上好多啊,“心有灵犀一点通”说的大概就是这种感觉吧!

超越语音识别,Siri缘何如此强大?

   从上文有关Siri的传说来看,它已经远远超出了语音识别的范畴,事实上,它和Google的Voice Actions或者其他语音识别技术有着本质的区别,当你和Siri对话时,不用总想着降低智商说一些只有套进语法结构的语言,而是可以随心所欲的发挥。
 
   由于整合了大量网络服务的APIS,包括OpenTable,Tickets.com, Taxi Magic等等,加之Siri是一款具有学习能力的软件(如果你愿意,它可以记录用户的使用数据和个人偏好等),使得Siri具有非常强大的数据支持。有 了它们,Siri可以进行语义的智能分析判断,而且还能即时调用系统功能,用户可以透过声控,文字输入的方式来搜寻餐厅、电影院等生活信息,同时可以直接 查看相关的信息,如果Siri能开发出中文版本,我想它一定能够帮助国人直接买到”春运的火车票”。通过海量的存储,Siri在某一地域的服务能力也非常 强悍,它可以告诉你,离办公室最近的KFC在哪里,神马地方可以买到恋人喜欢的玫瑰花…

   其实,总结起来Siri真正强大是源于其丰富的后台技术,它综合了包括网页搜索技术,知识计算技术,知识库技术和问答推荐技术等,从从识别,到反馈,再到互动,Siri真正实现了人机交互,这或许才是其最具革命性的地方。

 Siri能否借苹果之力改变世界?

   乔布斯去世后,引发了业界的震荡,琳琅满目的乔布语录充斥在网络、报端和一些权重媒体,真假或许难以分辨,但从海量的语录中,我们不难发现这些语录均与一个观点有联系,也即,活着就为改变世界!

   人类在探索如何与机器进行充分交流的路上从未停止过,几乎每年都会有新兴技术推动着“人机交互”的缓慢发展,但之所以Siri能引发这么多关注,正是因为 它依托于一款风靡全球的手机,巧合的是前两次的人机交互革命,包括从键盘(命令行)到鼠标(快捷键),从鼠标到多点触控都是由苹果公司引爆的,所以,大众 希望Siri能够扛起苹果的大旗改变世界,事实上,苹果收购Siri的决定之快,价格之高(估值至少达到1.5亿美金)和IOS5的整合之紧密,也充分说 明了Siri可能是乔布斯改变世界战略中非常重要的一部分,而它的存在和生长也开始给苹果的竞争对手造成持续的杀伤力,让Android和芒果手机再次陷 入平庸的尴尬,而强大的后台技术甚至威胁到了Google命根子—搜索功能,如果Siri真能迅猛发展起来,用户在提到谷歌搜索引擎时,最长的词汇肯定是 “流程太慢,太复杂了”。

   最后,更让其他公司垂涎的是,由于iPhone手机的风靡,Siri将为苹果带来巨量的用户数据,而这些数据有望强化苹果的三个弱项—云计算、社交和家庭娱乐设备,这些数据配合苹果渗入骨髓的创新基因,没有人能想象出,他们究竟会把世界改造成神马样!
 

本文如需转载,请用以下方式联系,并注明出自科幻星系

QQ:102927545 MSN:wangk1026@hotmail.com

相关实践学习
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
4月前
|
传感器 搜索推荐 人机交互
虚拟现实中的人机交互设计:探索未来交互的无限可能
【8月更文挑战第26天】虚拟现实中的人机交互设计是一项充满挑战与机遇的技术领域。随着技术的不断进步和应用场景的不断拓展,我们有理由相信未来VR人机交互将更加自然、直观和个性化。设计师需要不断探索和创新以应对各种技术挑战和用户需求变化,为用户带来更加丰富和愉悦的交互体验。
|
7月前
|
人工智能 自然语言处理 安全
AI语音克隆技术企业携手智能硬件制造商革新用户交互体验——ElevenLabs赋能rabbit r1设备实现自然流畅的人机对话
【4月更文挑战第1天】ElevenLabs与rabbit合作,将AI语音克隆技术应用于r1设备,实现自然人机对话。r1借助ElevenLabs的低延迟语音回应技术和rabbit的LAM,提供真实流畅的交互体验。双方旨在创建动态副驾驶般的用户体验,同时,这也预示着智能家居和个人助理产品的未来趋势,即更加人性化和智能化。但科技进步也伴随着隐私和过度依赖的问题,企业需兼顾用户体验与安全。
89 1
AI语音克隆技术企业携手智能硬件制造商革新用户交互体验——ElevenLabs赋能rabbit r1设备实现自然流畅的人机对话
|
人工智能 自然语言处理 自动驾驶
大模型与智能汽车:一场革命性的交互
随着人工智能(AI)的不断发展,我们正见证着智能汽车和大型AI模型的兴起。智能汽车正在改变我们对交通出行的理解,而大型AI模型则为这一变革提供了动力。这篇文章将探讨大模型与智能汽车之间的关系,以及它们如何共同推动未来的科技发展。
91 1