图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估

简介: 图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估

自从计算机问世,人们对于机器便开始了永无止境的探索,如何让机器更聪明。

那么怎么判断机器的“聪明程度”呢?最经典的方法当然是“图灵测试”。


早在1950年,图灵发表了一篇划时代的论文,他表示机器也可以拥有智能,像人一样会“思考”,并且提出了图灵测试:测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果机器让平均每个参与者做出超过30%的误判,那么这台机器就通过了测试,并被认为具有人类智能。


2015年11月,《Science》杂志封面刊登了一篇重磅研究:人工智能终于能像人类一样学习,并通过了图灵测试。这个系统能够迅速学会写陌生的文字,同时还能识别出非本质特征(也就是那些因书写造成的轻微变异),通过了图灵测试,这也是人工智能领域的一大进步。


因为易于理解又简单可控,这一测试方法自诞生起,一直被看作测试人工智能是否智能的重要方式。但是随着AI系统的快速发展,其复杂性正在迅速上升,而这些年,各种新的人工智能“智能”测试方法正层出不穷的涌现。

近期,华盛顿州立大学电子工程与计算机科学学院的教授Larry Holder表示,“以前,测量AI系统智能与否的研究大多是理论性的,没有在未知的新环境中测试AI系统的实际性能,也没有考虑到任务的复杂性。”



于是Holder和他的团队正在为AI系统创建首个“IQ测试”,以了解它们学习和适应新环境的能力,测试根据AI系统所能解决问题的难度对其进行评分,评分还将考虑系统的准确性、耗时以及所需的数据量。该研究的主要内容之一就是创建对问题难度进行排名的方法。Holder表示,“我们专注于测试和改进那些更具通用性的系统,比如可以帮助你完成许多日常任务的机器人助手。”研究人员主要关注的是,他们测试的AI系统能否很好地将它们从一个任务中学到的知识应用到另一个全新的,未知的任务上。例如,你可能想在下象棋之前先学习跳棋,因为可以很容易地把跳棋的知识转移到象棋。一名与Holder一起做暑期研究的本科生帮助他设计了一个评估环境,用于测试AI系统需要完成的任务,比如玩视频游戏、解答SAT考试的相关问题和解魔方。


可根据AI系统学习和玩新的视频游戏(例如Vizdoom)的能力来评估AI系统

Holder目前在维护一个AI系统可以进行“IQ测试”和排行的网站。他希望大家都可以使用它来测试自己的AI系统,同时在这个过程中为研究人员提供更多的数据。

要想测试,需要先创建一个AIQ帐户,然后在AIQ的后端提交分数。AIQ是一个开源测试框架,用于评估AI系统的“智商”。有关运行AIQ框架的详细教程及代码都在Github上,感兴趣的同学可以上手测一下~


AIQ网站地址:https://portal.eecs.wsu.edu/aiq/

研究人员希望利用这一框架,为人工智能评估提供一个开放的度量标准。另外,他们还将利用这一框架来确定人工智能领域的发展情况,以及在实现通用智能方面是否取得了进展。



Github教程

https://github.com/Christopher-P/AIQ#tutorial

 

DeepMind曾为AI定制一套IQ测试题


Holder教授不是第一个想突破图灵测试、为AI测智商的人。去年,DeepMind就动过为AI测智商的念头~先来看下面这张图,有没有熟悉的感觉!这种图形推理题,考过公务员的同学一定都不陌生~它能够用来考察我们的观察与逻辑推理能力,也是IQ测试题的一种。



去年,DeepMind发表了一篇论文,想要用这些推理题来测试神经网络的抽象推理能力。论文链接:http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf研究人员将抽象推理定义为在概念层次上检测模型和解决问题的能力,因此他们构建了一个涉及一系列抽象因素的题目生成器,以此来测试和训练机器学习。


在测试中,大多数模型都表现良好。研究人员发现,模型准确性与推断任务底层抽象概念的能力密切相关。“有些模型学会了解决复杂的视觉推理问题,”该团队写道,“为此,他们需要从原始像素输入中引入并检测抽象概念的存在,并将这些原则应用于从未观察到的刺激。“对于我们来说,考试前大家往往都会大量“刷题”,所以如果受试者准备太多,这样的测试也可能无效,因为我们学到了特定于测试的启发式方法,从而缩短了对推理的需求。研究人员也表示, “这对神经网络而言可能更严重,因为它们具有惊人的记忆能力。”最终的研究结果表明,想得出关于泛化的普遍结论可能是无益的:研究人员测试的神经网络在某些泛化方案中表现良好,而在其他方面表现很差。该团队在一篇博客文章中写道,“它们的成功是由一系列因素决定的,包括所用模型的架构以及该模型是否经过培训等等。”虽然实验结果可能是一个“大杂烩”,但研究人员还没有放弃,他们计划改进泛化策略,并探索在未来的模型中使用“结构丰富,但普遍适用”的归纳偏差。

AI研究之路艰辛漫长,“IQ测试”或许来的有点早


创造能够在新环境中自主学习和行动的智能机器,仍然是人工智能研究者们追求的方向,也是目前所面临的挑战。

Holder和他的团队建立这样一个测试系统,旨在测试和改进那些更具通用性的系统,比如可以完成许多日常任务的机器人助手。这是一个很好的研究方向,但实际上,要想实现“通用人工智能”,还有很长一段路要走。现在的人工智能技术,虽然在一些特定的领域以及实际应用上具备超人的能力了,但是它还需要大量的数据来进行训练。这种人工智能也被称为面向特定任务的“窄人工智能”,例如人脸检测、语音识别。未来希望能够达到“通用人工智能”,即具备人一样的智能,能够不断的自主学习,在更广的范围内提升整个机器的智能。  IBM副总裁、IBM大中华区首席技术官谢东曾在演讲中表示,“通用人工智能可能还需要一段时间才能实现,我们经常说可能是2050年以后吧。”(划重点:可能)那么现在,研究人员们正在努力把“窄人工智能”变成“宽人工智能”,所谓宽是什么?在学习的基础上加入一些推理的能力,这样就可以支持多任务、多领域、多模态的学习。美国哥伦比亚大学创意机器实验室总监、工程学教授Hod Lipson与团队研究出一款可以自我学习的机器人。它只有一个“手臂”,不像我们拥有眼睛可以看到自己,研究人员也没有告诉它它是什么,而是让它自己去感受,在自我想象中学习。


 

一开始它像婴儿般疯狂的甩着手臂,在感知自己的形态,感知这个世界。过了大概一天,它就可以开始做一些简单的任务了。这样简单的任务完全可以通过编程让它达到,但是这个机器人在它自己的模拟中学会了这项任务,这是人类迈向建造具备自我学习能力的机器人的重要一步。最后不得不说,在人工智能不断发展的同时,我们必须要确保是“可信的人工智能”,因为要把人工智能进行大规模应用的话,一定要保证它是可信的。

相关报道:https://news.wsu.edu/2019/12/12/iq-test-artificial-intelligence-systems/

相关文章
|
2月前
|
人工智能 自然语言处理 测试技术
用图灵测试检验AI尤其是大语言模型,真的科学吗?
【9月更文挑战第25天】《Does GPT-4 Pass the Turing Test?》一文评估了先进AI模型GPT-4的图灵测试表现。尽管GPT-4在某些对话中成功迷惑了参与者,但其整体成功率仅为41%,低于人类的63%。图灵测试作为评估AI语言能力的工具依然有效,但存在局限性,如无法评估AI的认知机制且受主观判断影响。此外,测试还引发了关于AI智能及伦理的讨论。
152 6
|
1月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
101 0
|
2天前
|
测试技术 API
在性能测试中,怎样设置合理的迭代次数?
在性能测试中,迭代次数的合理设置至关重要,它直接影响到测试结果的准确性和可靠性。
7 2
|
6天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
33 4
|
4天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
5天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
|
13天前
|
Web App开发 定位技术 iOS开发
Playwright 是一个强大的工具,用于在各种浏览器上测试应用,并模拟真实设备如手机和平板。通过配置 `playwright.devices`,可以轻松模拟不同设备的用户代理、屏幕尺寸、视口等特性。此外,Playwright 还支持模拟地理位置、区域设置、时区、权限(如通知)和配色方案,使测试更加全面和真实。例如,可以在配置文件中设置全局的区域设置和时区,然后在特定测试中进行覆盖。同时,还可以动态更改地理位置和媒体类型,以适应不同的测试需求。
Playwright 是一个强大的工具,用于在各种浏览器上测试应用,并模拟真实设备如手机和平板。通过配置 `playwright.devices`,可以轻松模拟不同设备的用户代理、屏幕尺寸、视口等特性。此外,Playwright 还支持模拟地理位置、区域设置、时区、权限(如通知)和配色方案,使测试更加全面和真实。例如,可以在配置文件中设置全局的区域设置和时区,然后在特定测试中进行覆盖。同时,还可以动态更改地理位置和媒体类型,以适应不同的测试需求。
17 1
|
27天前
|
人工智能 NoSQL 测试技术
使用 MongoDB 构建 AI:Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心
若需了解更多MongoDB Atlas相关内容,可前往:https://www.mongodb.com/zh-cn/atlas
使用 MongoDB 构建 AI:Patronus 如何自动进行大语言模型评估来增强对生成式 AI 的信心
|
1月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
20 5
|
1月前
|
测试技术 Python
自动化测试项目学习笔记(一):unittest简单运行(初始化,清除,设置测试行为)
本文介绍了Python的unittest框架的基础用法,包括测试初始化(setup)、清除(tearDown)函数的使用,以及assertEqual和assertGreaterEqual等断言方法,并展示了如何创建测试用例,强调了测试函数需以test_开头才能被运行。
58 0
自动化测试项目学习笔记(一):unittest简单运行(初始化,清除,设置测试行为)