亚马逊Alexa科学家:图灵测试70年已成古董,要给AI构建新的「黄金标准」了!

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_基础版,每接口每天50万次
NLP自然语言处理_高级版,每接口累计50万次
简介: 【新智元导读】1950 年,图灵提出著名的「图灵测试」去回答「机器能否思考」的问题,目的是判断机器是否能表现出人类也无法区分的对话行为。70年来,图灵测试也一直作为学术界的AI「北极星」而存在。近日,亚马逊语音助手 Alexa 部门的首席科学家认为,人们现在关心的是人机之间的互动,而不是区分机器和人类。他认为,图灵测试过时了,AI 需要新基准测试!

图灵测试可以退场了吗?

 

自从1950年艾伦·图灵发表论文回应「机器可以思考吗?」这一问题以来,已经过去70年。

 

.0.jpg

 

图灵测试的目标,是确定机器是否能表现出人类无法区分的对话行为。在这个游戏中,谁是回应者,是人类还是人工智能,评估者是不被告知的。

 

0.jpg

 

在图灵的论文中,他本人也曾暗示过一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」


亚马逊语音助手 Alexa 部门的首席科学家罗希特·普拉萨德最近争辩说,长期用于衡量AI模型复杂程度的图灵测试,应该作为AI的基准而淘汰

 

1.jpg

 

70年过去了,图灵测试该退场了吗?

 

旧基准与新时代:我们关心人机互动,不是区分机器和人类!

 

为了回答这个问题,让我们回到图灵第一次提出他的论文的时候。

 

1950年,第一台商用计算机还没卖出去;光缆的基础工作还要4年才能公布;人工智能领域也没有正式建立。

 

即使他的论文彻底改变了计算机科学和人工智能。但就在随后的2-4年里,图灵也因同性恋罪名而饱受折磨最后自杀。

 

1..jpg


幸运的是,他的「遗产」继续存在,而且在漫长的岁月里经受住了无数考验。

 

现在,人工智能已经发生了剧变。我们手机上的计算能力是阿波罗11号的10万倍,再加上云计算和高带宽连接,现在的AI可以在几秒钟内根据海量数据做出决策。

 

普拉萨德认为,图灵测试在很多方面是有局限性的,正如他手中的Alexa产品一样,很少会关心人类与AI的区别,而更关心与人工智能的密切互动

 2.jpg

image.gif

 

例如,你要求你的AI助手关闭车库的灯,你并不希望与其对话。相反,你只希望它完成「确定」。

 

实际上,图灵自己甚至在他最初的论文中提到了这些当中的一些局限性。

 

普拉萨德认为,随着人工智能与人们生活方方面面的联系越来越紧密,图灵测试应该被认为是过时的,应被更有用的基准测试所取代

 

此话不假,的确,许多早期的聊天机器人是为通过图灵测试而设计的,例如,类似「罗布能奖」 (The Loebner Prize) 和「话匣子挑战赛」 (The Chatterbox Challenge)的聊天机器人年赛,就是聚焦于图灵测试的。


.2.jpg

 

但尽管如此,面对外界不断询问Alexa何时能够通过图灵测试时,普拉萨德指出,图灵测试仍然是聊天机器人和数字助理常用的基准。


 

他说,使用图灵测试评估机器智能性的其中一个主要问题是,它几乎完全削弱了机器查找信息和执行闪电般快速计算的能力。

 

比如说,装作停顿。

 

「3434756的立方根是什么?」

 

「西雅图到波士顿有多远?」

 

当听到这些问题时,人工智能程序完全能立即找到答案,但是,它们却会模仿人类的停顿。


除此之外,图灵测试没有考虑到人工智能使用外部传感器收集数据能力的日益增强,忽略了人工智能通过视觉和运动算法与周围世界进行交互的方式——只依赖于文本通信。

 

image.gif3.jpg

 

创建新的基准?


就像Alexa的功能一样,普拉萨德认为应该创造新的智能评估方式,适用于评估一般类型的智能机器。

 

这些测试应该能够搞清楚人工智能在多大程度上提高了人类的智力,以及人工智能在多大程度上改善了人们的日常生活。此外,测试应该弄明白人工智能是如何表现出类似人的智能特征的,包括语言能力、自我监督和「常识」

 

image.gif3..jpg

 

当前人工智能研究重要的领域,如推理、公平性、对话和感官理解,并不是通过图灵测试来评估的,它们可以通过多种方式进行评估。


当时亚马逊创立Alexa 奖的标准是要求社交机器人与人类对话20分钟。这些机器人将被评估关于广泛话题连贯对话的能力,如科技、体育、政治和娱乐。顾客在机器人开发阶段对其打分,之后再次基于他们与机器人的聊天欲望对其进行打分。在最后一轮中,评委独立负责用五分制对机器人进行评分。评委们所使用的评价标准依赖于让人工智能在适当的情况下表现出移情等重要的人类属性的方法。

 

image.gif.3.jpg

 

最终,普拉萨德认为像Alexa这样的人工智能装置的大量涌现,体现出衡量人工智能进程的重要机会,我们需要不同的策略来利用这个新机会。

 

普拉萨德解释到,人工智能若要成为处理大量任务方面的专家,只有具备更广泛的学习能力,而不是特定任务的智能,才有可能。因此,在未来十年乃至更长时间里,人工智能服务的实用性,以及它们在周围设备上的对话及主动协助能力是值得进行测试的。

 

图灵测试为何如此重要?


一个男人(A)女人(B),以及可能是两性的讯问者(C)。

 

游戏的概念是审讯者呆在与男人(A)和女人(B)都分开的房间里,目的是让审讯者识别男人是谁,女人是谁。在这种情况下,男人(A)的目的是欺骗询问者,而女人(B)可以试图帮助询问者(C)。为了公平起见,不能使用口头提示,而只能来回发送打字的问题和答案。问题就变成了:询问者如何知道该信任谁?

 

询问者仅通过标签X和Y知道它们,并且在游戏结束时,他只是简单地说「 X是A和Y是B」或「 X是B而Y是A」。

 

那么问题就变成了,如果我们把男人(A)或女人(B)去掉,把这个人换成一台智能机器,这台机器能不能用它的人工智能系统来欺骗审讯者(C),让他相信这是一个男人或一个女人呢?这就是图灵测试的本质。

 

换句话说,如果你在不知情的情况下与一个人工智能系统进行交流,而你又假设另一端的 「实体 」是一个人,那么人工智能能不能无限期地欺骗你呢?

 

图灵测试为何如此重要?

 

在图灵的论文中,他暗示了一个事实,即他认为图灵测试最终可能会被击败。他说:「到2000年,在一个模仿游戏中,一个普通人区分AI和人类的几率将低于70%,」

 

4.png

 

关于图灵测试被通过的报道很多。

 

2014年,一个名为Eugene Goostman的聊天机器人程序,模拟了一个13岁的乌克兰男孩,在一次图灵测试中,这个聊天机器人让伦敦皇家学会33%的评委相信它是人类。尽管如此,批评者很快就指出了测试的不足之处,时间太短!只有5分钟,这不足以来说明智能的程度。

 

2018年,在谷歌助手的协助下,谷歌Duplex预约系统假装成人类,给一家发廊打电话,同时与发廊的前台人员进行交流。短暂的交流后,「她」成功预约了一次理发。

 5.gif

image.gif

 

然而,在这个自然语言处理(NLP)的时代,有自然语言理解(NLU)和自然语言解释(NLI)两个子领域,我们需要问一个问题,在不完全理解其背后的语境的情况下,这台机器是否真的智能?

 

毕竟,如果回顾一下IBM开发的Watson背后的技术,Watson是一个能够回答自然语言提出的问题的计算机系统,曾击败Jeopardy冠军,但Watson能够击败世界冠军,是通过互联网下载了一大批世界知识,包括维基百科在内的各种来源,却并不了解这种语言背后的背景。虽然,Watson在玩游戏的时候不能上网,但这对于一个人工智能来说,只是一个小小的限制,它只需要在游戏开始前获取人类所有的知识就可以了。


6.jpg


类似于搜索引擎,进行了关键词和参考点。如果一个人工智能能够达到这种理解水平,那么我们应该考虑到,基于今天不断进步的技术,欺骗一个人类5分钟或10分钟,根本没有设置足够高的门槛。 


不断移动的门槛


正是由于对现代AI的需求在改变,我们应该重新考虑图灵测试的新的现代定义。


7.jpg

 

回顾人工智能的发展史,人工智能能否达到人类水平智能的最终晴雨表,几乎都是基于它是否能在各种游戏中击败人类。

 

1949年,克劳德-香农发表了关于如何让计算机下棋的想法,因为这被认为是人类智慧的终极巅峰。

 

image.gif 8.jpg

1996年2月10日,经过3个小时的艰苦比赛,国际象棋世界冠军加里-卡斯帕罗夫(Garry Kasparov)在与IBM计算机 「深蓝」(Deep Blue)的六局比赛中输掉了第一局,「深蓝」每秒能评估2亿步棋。

 

image.gif9.jpg

 

快到2015年10月,AlphaGo与三届欧冠卫冕冠军樊麾先生进行了第一场比赛。AlphaGo以5比0的比分赢得了史上第一场与围棋职业选手的比赛。围棋被认为是世界上最复杂的棋局,它有10360种可能的棋步。

 

10.jpg

 

可以见得,争论的焦点是,在大型多人在线角色扮演游戏中,人工智能必须能够击败玩家团队。

 

但目前的测试可能过于依赖欺骗、聊天机器人中的技术。目前,在我们的实际世界中,人工智能将需要进行互动和 「生活」,而不是游戏环境或模拟环境及其定义的规则。 

相关文章
|
5天前
|
人工智能 开发框架 算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
80 10
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
|
22小时前
|
人工智能 开发框架 安全
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
Smolagents 是 Hugging Face 推出的轻量级开源库,旨在简化智能代理的构建过程,支持多种大语言模型集成和代码执行代理功能。
95 67
Smolagents:三行代码就能开发 AI 智能体,Hugging Face 开源轻量级 Agent 构建库
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
PeterCat 是一款开源的智能答疑机器人,能够自动抓取 GitHub 上的文档和 issue 构建知识库,提供对话式答疑服务,帮助开发者和社区维护者高效解决技术问题。
49 7
PeterCat:一键创建开源项目 AI 问答机器人,自动抓取 GitHub 仓库信息、文档和 issue 等构建知识库
|
17天前
|
人工智能 数据可视化 JavaScript
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
NodeTool 是一个开源的 AI 工作流可视化构建器,通过拖放节点的方式设计复杂的工作流,无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型,并与 Hugging Face、OpenAI 等平台集成,提供模型访问能力。
92 14
NodeTool:AI 工作流可视化构建器,通过拖放节点设计复杂的工作流,集成 OpenAI 等多个平台
|
12天前
|
人工智能 Serverless API
aliyun解决方案评测|主动式智能导购AI助手构建
《主动式智能导购AI助手构建》方案结合百炼大模型与函数计算,提供高效智能导购服务。然而,实际体验中发现官方教程的说明顺序有待优化,特别是关于百炼大模型服务开通及API-key的使用指引不够清晰,导致初次使用者需查阅额外资料。此外,架构设计和实践原理在部署过程中逐步展现,有助于理解,但针对生产环境的具体指导还需进一步完善以满足实际需求。为优化用户体验,建议调整文档中的步骤顺序,确保新手能更顺畅地完成部署和测试。
111 27
|
2天前
|
人工智能 搜索推荐 算法
解决方案评测|主动式智能导购AI助手构建
阿里云的主动式智能导购AI助手是电商商家提升用户体验和销量的利器。它能实时分析用户行为,提供个性化推荐,支持多渠道无缝对接,并具备语音和文本交互功能。通过注册阿里云账号、开通服务、配置项目、设置推荐策略、集成到平台并测试优化,商家可以轻松部署这一工具。关键代码示例帮助理解API对接和数据处理。建议增强个性化推荐算法、优化交互体验并增加自定义选项,以进一步提升效果。
34 11
|
17天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
117 2
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
5天前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
3天前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
|
22小时前
|
人工智能 搜索推荐
SoulChat2.0:低成本构建 AI 心理咨询师,华南理工开源心理咨询师数字孪生大语言模型
SoulChat2.0 是华南理工大学推出的心理咨询师数字孪生大语言模型,能够低成本、快速构建个性化咨询风格的心理健康大模型,辅助心理咨询师工作。
16 7
SoulChat2.0:低成本构建 AI 心理咨询师,华南理工开源心理咨询师数字孪生大语言模型