亚马逊Alexa科学家:图灵测试70年已成古董,要给AI构建新的「黄金标准」了!

简介: 【新智元导读】1950 年,图灵提出著名的「图灵测试」去回答「机器能否思考」的问题,目的是判断机器是否能表现出人类也无法区分的对话行为。70年来,图灵测试也一直作为学术界的AI「北极星」而存在。近日,亚马逊语音助手 Alexa 部门的首席科学家认为,人们现在关心的是人机之间的互动,而不是区分机器和人类。他认为,图灵测试过时了,AI 需要新基准测试!

图灵测试可以退场了吗?

 

自从1950年艾伦·图灵发表论文回应「机器可以思考吗?」这一问题以来,已经过去70年。

 

.0.jpg

 

图灵测试的目标,是确定机器是否能表现出人类无法区分的对话行为。在这个游戏中,谁是回应者,是人类还是人工智能,评估者是不被告知的。

 

0.jpg

 

在图灵的论文中,他本人也曾暗示过一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」


亚马逊语音助手 Alexa 部门的首席科学家罗希特·普拉萨德最近争辩说,长期用于衡量AI模型复杂程度的图灵测试,应该作为AI的基准而淘汰

 

1.jpg

 

70年过去了,图灵测试该退场了吗?

 

旧基准与新时代:我们关心人机互动,不是区分机器和人类!

 

为了回答这个问题,让我们回到图灵第一次提出他的论文的时候。

 

1950年,第一台商用计算机还没卖出去;光缆的基础工作还要4年才能公布;人工智能领域也没有正式建立。

 

即使他的论文彻底改变了计算机科学和人工智能。但就在随后的2-4年里,图灵也因同性恋罪名而饱受折磨最后自杀。

 

1..jpg


幸运的是,他的「遗产」继续存在,而且在漫长的岁月里经受住了无数考验。

 

现在,人工智能已经发生了剧变。我们手机上的计算能力是阿波罗11号的10万倍,再加上云计算和高带宽连接,现在的AI可以在几秒钟内根据海量数据做出决策。

 

普拉萨德认为,图灵测试在很多方面是有局限性的,正如他手中的Alexa产品一样,很少会关心人类与AI的区别,而更关心与人工智能的密切互动

 2.jpg

image.gif

 

例如,你要求你的AI助手关闭车库的灯,你并不希望与其对话。相反,你只希望它完成「确定」。

 

实际上,图灵自己甚至在他最初的论文中提到了这些当中的一些局限性。

 

普拉萨德认为,随着人工智能与人们生活方方面面的联系越来越紧密,图灵测试应该被认为是过时的,应被更有用的基准测试所取代

 

此话不假,的确,许多早期的聊天机器人是为通过图灵测试而设计的,例如,类似「罗布能奖」 (The Loebner Prize) 和「话匣子挑战赛」 (The Chatterbox Challenge)的聊天机器人年赛,就是聚焦于图灵测试的。


.2.jpg

 

但尽管如此,面对外界不断询问Alexa何时能够通过图灵测试时,普拉萨德指出,图灵测试仍然是聊天机器人和数字助理常用的基准。


 

他说,使用图灵测试评估机器智能性的其中一个主要问题是,它几乎完全削弱了机器查找信息和执行闪电般快速计算的能力。

 

比如说,装作停顿。

 

「3434756的立方根是什么?」

 

「西雅图到波士顿有多远?」

 

当听到这些问题时,人工智能程序完全能立即找到答案,但是,它们却会模仿人类的停顿。


除此之外,图灵测试没有考虑到人工智能使用外部传感器收集数据能力的日益增强,忽略了人工智能通过视觉和运动算法与周围世界进行交互的方式——只依赖于文本通信。

 

image.gif3.jpg

 

创建新的基准?


就像Alexa的功能一样,普拉萨德认为应该创造新的智能评估方式,适用于评估一般类型的智能机器。

 

这些测试应该能够搞清楚人工智能在多大程度上提高了人类的智力,以及人工智能在多大程度上改善了人们的日常生活。此外,测试应该弄明白人工智能是如何表现出类似人的智能特征的,包括语言能力、自我监督和「常识」

 

image.gif3..jpg

 

当前人工智能研究重要的领域,如推理、公平性、对话和感官理解,并不是通过图灵测试来评估的,它们可以通过多种方式进行评估。


当时亚马逊创立Alexa 奖的标准是要求社交机器人与人类对话20分钟。这些机器人将被评估关于广泛话题连贯对话的能力,如科技、体育、政治和娱乐。顾客在机器人开发阶段对其打分,之后再次基于他们与机器人的聊天欲望对其进行打分。在最后一轮中,评委独立负责用五分制对机器人进行评分。评委们所使用的评价标准依赖于让人工智能在适当的情况下表现出移情等重要的人类属性的方法。

 

image.gif.3.jpg

 

最终,普拉萨德认为像Alexa这样的人工智能装置的大量涌现,体现出衡量人工智能进程的重要机会,我们需要不同的策略来利用这个新机会。

 

普拉萨德解释到,人工智能若要成为处理大量任务方面的专家,只有具备更广泛的学习能力,而不是特定任务的智能,才有可能。因此,在未来十年乃至更长时间里,人工智能服务的实用性,以及它们在周围设备上的对话及主动协助能力是值得进行测试的。

 

图灵测试为何如此重要?


一个男人(A)女人(B),以及可能是两性的讯问者(C)。

 

游戏的概念是审讯者呆在与男人(A)和女人(B)都分开的房间里,目的是让审讯者识别男人是谁,女人是谁。在这种情况下,男人(A)的目的是欺骗询问者,而女人(B)可以试图帮助询问者(C)。为了公平起见,不能使用口头提示,而只能来回发送打字的问题和答案。问题就变成了:询问者如何知道该信任谁?

 

询问者仅通过标签X和Y知道它们,并且在游戏结束时,他只是简单地说「 X是A和Y是B」或「 X是B而Y是A」。

 

那么问题就变成了,如果我们把男人(A)或女人(B)去掉,把这个人换成一台智能机器,这台机器能不能用它的人工智能系统来欺骗审讯者(C),让他相信这是一个男人或一个女人呢?这就是图灵测试的本质。

 

换句话说,如果你在不知情的情况下与一个人工智能系统进行交流,而你又假设另一端的 「实体 」是一个人,那么人工智能能不能无限期地欺骗你呢?

 

图灵测试为何如此重要?

 

在图灵的论文中,他暗示了一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

 

4.png

 

关于图灵测试被通过的报道很多。

 

2014年,一个名为Eugene Goostman的聊天机器人程序,模拟了一个13岁的乌克兰男孩,在一次图灵测试中,这个聊天机器人让伦敦皇家学会33%的评委相信它是人类。尽管如此,批评者很快就指出了测试的不足之处,时间太短!只有5分钟,这不足以来说明智能的程度。

 

2018年,在谷歌助手的协助下,谷歌Duplex预约系统假装成人类,给一家发廊打电话,同时与发廊的前台人员进行交流。短暂的交流后,「她」成功预约了一次理发。

 5.gif

image.gif

 

然而,在这个自然语言处理(NLP)的时代,有自然语言理解(NLU)和自然语言解释(NLI)两个子领域,我们需要问一个问题,在不完全理解其背后的语境的情况下,这台机器是否真的智能?

 

毕竟,如果回顾一下IBM开发的Watson背后的技术,Watson是一个能够回答自然语言提出的问题的计算机系统,曾击败Jeopardy冠军,但Watson能够击败世界冠军,是通过互联网下载了一大批世界知识,包括维基百科在内的各种来源,却并不了解这种语言背后的背景。虽然,Watson在玩游戏的时候不能上网,但这对于一个人工智能来说,只是一个小小的限制,它只需要在游戏开始前获取人类所有的知识就可以了。


6.jpg


类似于搜索引擎,进行了关键词和参考点。如果一个人工智能能够达到这种理解水平,那么我们应该考虑到,基于今天不断进步的技术,欺骗一个人类5分钟或10分钟,根本没有设置足够高的门槛。 


不断移动的门槛


正是由于对现代AI的需求在改变,我们应该重新考虑图灵测试的新的现代定义。


7.jpg

 

回顾人工智能的发展史,人工智能能否达到人类水平智能的最终晴雨表,几乎都是基于它是否能在各种游戏中击败人类。

 

1949年,克劳德-香农发表了关于如何让计算机下棋的想法,因为这被认为是人类智慧的终极巅峰。

 

image.gif 8.jpg

1996年2月10日,经过3个小时的艰苦比赛,国际象棋世界冠军加里-卡斯帕罗夫(Garry Kasparov)在与IBM计算机 「深蓝」(Deep Blue)的六局比赛中输掉了第一局,「深蓝」每秒能评估2亿步棋。

 

image.gif9.jpg

 

快到2015年10月,AlphaGo与三届欧冠卫冕冠军樊麾先生进行了第一场比赛。AlphaGo以5比0的比分赢得了史上第一场与围棋职业选手的比赛。围棋被认为是世界上最复杂的棋局,它有10360种可能的棋步。

 

10.jpg

 

可以见得,争论的焦点是,在大型多人在线角色扮演游戏中,人工智能必须能够击败玩家团队。

 

但目前的测试可能过于依赖欺骗、聊天机器人中的技术。目前,在我们的实际世界中,人工智能将需要进行互动和 「生活」,而不是游戏环境或模拟环境及其定义的规则。 

相关文章
|
1月前
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【2月更文挑战第15天】 在数字化时代,网络安全已成为全球关注的焦点。传统的安全防御手段在面对日益复杂的网络威胁时显得捉襟见肘。本文将探讨如何利用人工智能(AI)技术构建一个自适应的网络安全防御系统。该系统能够实时分析网络流量,自动识别和响应潜在威胁,从而提供一种更加动态和灵活的安全保护机制。通过深度学习算法的不断进化,这种系统能够预测和适应新型攻击模式,显著提高防御效率和准确性。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
提升软件测试效率与质量:AI驱动的自动化测试策略
【2月更文挑战第19天】 在快速迭代的软件发展环境中,传统的手动测试方法已无法满足高效率和高质量的要求。本文探讨了人工智能(AI)技术如何革新现有的软件测试流程,通过引入AI驱动的自动化测试策略,旨在提高测试覆盖率,减少人为错误,优化资源分配,并缩短产品上市时间。我们将分析AI在识别潜在缺陷、生成测试用例、执行测试以及结果分析中的应用,并讨论实施这些策略时可能遇到的挑战和限制。
151 3
|
1月前
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
205 0
|
15天前
|
机器学习/深度学习 人工智能 算法
|
17天前
|
人工智能 NoSQL atlas
如何用MongoDB Atlas和大语言模型,高效构建企业级AI应用?
利用生成式 AI 强化应用程序为客户打造令人叹服、真正差异化的体验意味着将人工智能建立在事实的基础之上
1585 0
|
19天前
|
机器学习/深度学习 人工智能 运维
构建未来:AI驱动的自适应网络安全防御系统
【4月更文挑战第7天】 在数字时代的浪潮中,网络安全已成为维系信息完整性、保障用户隐私和确保商业连续性的关键。传统的安全防御策略,受限于其静态性质和对新型威胁的响应迟缓,已难以满足日益增长的安全需求。本文将探讨如何利用人工智能(AI)技术打造一个自适应的网络安全防御系统,该系统能够实时分析网络流量,自动识别并响应未知威胁,从而提供更为强大和灵活的保护机制。通过深入剖析AI算法的核心原理及其在网络安全中的应用,我们将展望一个由AI赋能的、更加智能和安全的网络环境。
28 0
|
20天前
|
机器学习/深度学习 人工智能 算法
构建未来:基于AI的移动应用界面优化策略
【4月更文挑战第6天】随着人工智能技术的飞速发展,其在移动应用界面设计中的应用越来越广泛。本文将探讨如何利用AI技术优化移动应用的用户界面,提高用户体验。我们将详细介绍AI在理解用户需求、预测用户行为、自动调整界面元素等方面的应用,并讨论这种技术的挑战和未来发展趋势。
12 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
提升软件测试效率:AI驱动的自动化测试策略
【2月更文挑战第30天】随着人工智能(AI)在软件开发周期中的日益普及,其在提高软件测试效率方面的潜力正受到越来越多的关注。本文探讨了如何通过集成AI技术来优化自动化测试流程,从而减少重复工作、提高错误检测率和加快反馈速度。我们将分析当前AI在自动化测试中的应用,并提出一系列策略以利用AI改进测试案例生成、执行和维护过程。
85 0
|
1月前
|
人工智能 算法 搜索推荐
构建未来:AI在持续学习系统中的创新应用
【2月更文挑战第30天】 本文聚焦于人工智能(AI)技术在持续学习系统(CLS)中的前沿应用,探讨了AI如何促进个体和组织的知识演进与技能提升。通过分析自适应学习算法、数据驱动的个性化推荐以及智能辅助决策支持等关键技术,揭示了AI在推动终身学习和知识管理领域的创新潜力。文章还考察了这些技术在实际部署中面临的挑战,包括数据隐私保护、算法透明度和系统集成问题,并提出了相应的解决策略。
27 3
|
1月前
|
人工智能 自然语言处理 数据挖掘
用RAG轻松构建自己的AI大模型应用
如何构建自己的AI大模型应用?

热门文章

最新文章