图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估

简介: 图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估

自从计算机问世,人们对于机器便开始了永无止境的探索,如何让机器更聪明。

那么怎么判断机器的“聪明程度”呢?最经典的方法当然是“图灵测试”。


早在1950年,图灵发表了一篇划时代的论文,他表示机器也可以拥有智能,像人一样会“思考”,并且提出了图灵测试:测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果机器让平均每个参与者做出超过30%的误判,那么这台机器就通过了测试,并被认为具有人类智能。


2015年11月,《Science》杂志封面刊登了一篇重磅研究:人工智能终于能像人类一样学习,并通过了图灵测试。这个系统能够迅速学会写陌生的文字,同时还能识别出非本质特征(也就是那些因书写造成的轻微变异),通过了图灵测试,这也是人工智能领域的一大进步。


因为易于理解又简单可控,这一测试方法自诞生起,一直被看作测试人工智能是否智能的重要方式。但是随着AI系统的快速发展,其复杂性正在迅速上升,而这些年,各种新的人工智能“智能”测试方法正层出不穷的涌现。

近期,华盛顿州立大学电子工程与计算机科学学院的教授Larry Holder表示,“以前,测量AI系统智能与否的研究大多是理论性的,没有在未知的新环境中测试AI系统的实际性能,也没有考虑到任务的复杂性。”



于是Holder和他的团队正在为AI系统创建首个“IQ测试”,以了解它们学习和适应新环境的能力,测试根据AI系统所能解决问题的难度对其进行评分,评分还将考虑系统的准确性、耗时以及所需的数据量。该研究的主要内容之一就是创建对问题难度进行排名的方法。Holder表示,“我们专注于测试和改进那些更具通用性的系统,比如可以帮助你完成许多日常任务的机器人助手。”研究人员主要关注的是,他们测试的AI系统能否很好地将它们从一个任务中学到的知识应用到另一个全新的,未知的任务上。例如,你可能想在下象棋之前先学习跳棋,因为可以很容易地把跳棋的知识转移到象棋。一名与Holder一起做暑期研究的本科生帮助他设计了一个评估环境,用于测试AI系统需要完成的任务,比如玩视频游戏、解答SAT考试的相关问题和解魔方。


可根据AI系统学习和玩新的视频游戏(例如Vizdoom)的能力来评估AI系统

Holder目前在维护一个AI系统可以进行“IQ测试”和排行的网站。他希望大家都可以使用它来测试自己的AI系统,同时在这个过程中为研究人员提供更多的数据。

要想测试,需要先创建一个AIQ帐户,然后在AIQ的后端提交分数。AIQ是一个开源测试框架,用于评估AI系统的“智商”。有关运行AIQ框架的详细教程及代码都在Github上,感兴趣的同学可以上手测一下~


AIQ网站地址:https://portal.eecs.wsu.edu/aiq/

研究人员希望利用这一框架,为人工智能评估提供一个开放的度量标准。另外,他们还将利用这一框架来确定人工智能领域的发展情况,以及在实现通用智能方面是否取得了进展。



Github教程

https://github.com/Christopher-P/AIQ#tutorial

 

DeepMind曾为AI定制一套IQ测试题


Holder教授不是第一个想突破图灵测试、为AI测智商的人。去年,DeepMind就动过为AI测智商的念头~先来看下面这张图,有没有熟悉的感觉!这种图形推理题,考过公务员的同学一定都不陌生~它能够用来考察我们的观察与逻辑推理能力,也是IQ测试题的一种。



去年,DeepMind发表了一篇论文,想要用这些推理题来测试神经网络的抽象推理能力。论文链接:http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf研究人员将抽象推理定义为在概念层次上检测模型和解决问题的能力,因此他们构建了一个涉及一系列抽象因素的题目生成器,以此来测试和训练机器学习。


在测试中,大多数模型都表现良好。研究人员发现,模型准确性与推断任务底层抽象概念的能力密切相关。“有些模型学会了解决复杂的视觉推理问题,”该团队写道,“为此,他们需要从原始像素输入中引入并检测抽象概念的存在,并将这些原则应用于从未观察到的刺激。“对于我们来说,考试前大家往往都会大量“刷题”,所以如果受试者准备太多,这样的测试也可能无效,因为我们学到了特定于测试的启发式方法,从而缩短了对推理的需求。研究人员也表示, “这对神经网络而言可能更严重,因为它们具有惊人的记忆能力。”最终的研究结果表明,想得出关于泛化的普遍结论可能是无益的:研究人员测试的神经网络在某些泛化方案中表现良好,而在其他方面表现很差。该团队在一篇博客文章中写道,“它们的成功是由一系列因素决定的,包括所用模型的架构以及该模型是否经过培训等等。”虽然实验结果可能是一个“大杂烩”,但研究人员还没有放弃,他们计划改进泛化策略,并探索在未来的模型中使用“结构丰富,但普遍适用”的归纳偏差。

AI研究之路艰辛漫长,“IQ测试”或许来的有点早


创造能够在新环境中自主学习和行动的智能机器,仍然是人工智能研究者们追求的方向,也是目前所面临的挑战。

Holder和他的团队建立这样一个测试系统,旨在测试和改进那些更具通用性的系统,比如可以完成许多日常任务的机器人助手。这是一个很好的研究方向,但实际上,要想实现“通用人工智能”,还有很长一段路要走。现在的人工智能技术,虽然在一些特定的领域以及实际应用上具备超人的能力了,但是它还需要大量的数据来进行训练。这种人工智能也被称为面向特定任务的“窄人工智能”,例如人脸检测、语音识别。未来希望能够达到“通用人工智能”,即具备人一样的智能,能够不断的自主学习,在更广的范围内提升整个机器的智能。  IBM副总裁、IBM大中华区首席技术官谢东曾在演讲中表示,“通用人工智能可能还需要一段时间才能实现,我们经常说可能是2050年以后吧。”(划重点:可能)那么现在,研究人员们正在努力把“窄人工智能”变成“宽人工智能”,所谓宽是什么?在学习的基础上加入一些推理的能力,这样就可以支持多任务、多领域、多模态的学习。美国哥伦比亚大学创意机器实验室总监、工程学教授Hod Lipson与团队研究出一款可以自我学习的机器人。它只有一个“手臂”,不像我们拥有眼睛可以看到自己,研究人员也没有告诉它它是什么,而是让它自己去感受,在自我想象中学习。


 

一开始它像婴儿般疯狂的甩着手臂,在感知自己的形态,感知这个世界。过了大概一天,它就可以开始做一些简单的任务了。这样简单的任务完全可以通过编程让它达到,但是这个机器人在它自己的模拟中学会了这项任务,这是人类迈向建造具备自我学习能力的机器人的重要一步。最后不得不说,在人工智能不断发展的同时,我们必须要确保是“可信的人工智能”,因为要把人工智能进行大规模应用的话,一定要保证它是可信的。

相关报道:https://news.wsu.edu/2019/12/12/iq-test-artificial-intelligence-systems/

相关文章
|
21天前
|
机器学习/深度学习 人工智能 算法
BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力
BALROG 是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在复杂动态环境中推理能力的基准测试工具。它通过一系列挑战性的游戏环境,如 NetHack,测试模型的规划、空间推理和探索能力。BALROG 提供了一个开放且细粒度的评估框架,推动了自主代理研究的进展。
31 3
BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力
|
1月前
|
测试技术 API 微服务
性能测试并发量评估新思考
性能测试并发量评估新思考
63 5
性能测试并发量评估新思考
|
1月前
|
存储 人工智能 关系型数据库
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|解码Data+AI助力游戏日志智能分析
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
智能化软件测试:AI驱动的自动化测试策略与实践####
本文深入探讨了人工智能(AI)在软件测试领域的创新应用,通过分析AI技术如何优化测试流程、提升测试效率及质量,阐述了智能化软件测试的核心价值。文章首先概述了传统软件测试面临的挑战,随后详细介绍了AI驱动的自动化测试工具与框架,包括自然语言处理(NLP)、机器学习(ML)算法在缺陷预测、测试用例生成及自动化回归测试中的应用实例。最后,文章展望了智能化软件测试的未来发展趋势,强调了持续学习与适应能力对于保持测试策略有效性的重要性。 ####
|
23天前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
29 6
|
1天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的2FSK调制解调系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的2FSK调制解调系统,包含高斯信道、误码率统计模块及testbench。系统增加了ILA在线数据采集和VIO在线SNR设置模块,支持不同SNR下的硬件测试,并提供操作视频指导。理论部分涵盖频移键控(FSK)原理,包括相位连续与不连续FSK信号的特点及功率谱密度特性。Verilog代码实现了FSK调制解调的核心功能,支持在不同开发板上移植。硬件测试结果展示了不同SNR下的性能表现。
18 6
|
25天前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
27 1
|
29天前
|
人工智能 知识图谱
轻松搭建AI版“谁是卧底”游戏,muAgent框架让知识图谱秒变编排引擎,支持复杂推理+在线协同
蚂蚁集团推出muAgent,兼容现有市面各类Agent框架,同时可实现复杂推理、在线协同、人工交互、知识即用四大核心差异技术功能。
38 2
|
1月前
|
测试技术 API
在性能测试中,怎样设置合理的迭代次数?
在性能测试中,迭代次数的合理设置至关重要,它直接影响到测试结果的准确性和可靠性。
36 2
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的新篇章:利用AI提升软件质量
【10月更文挑战第35天】在软件开发的海洋中,自动化测试犹如一艘救生艇,它帮助团队确保产品质量,同时减少人为错误。本文将探索如何通过集成人工智能(AI)技术,使自动化测试更加智能化,从而提升软件测试的效率和准确性。我们将从AI在测试用例生成、测试执行和结果分析中的应用出发,深入讨论AI如何重塑软件测试领域,并配以实际代码示例来说明这些概念。
58 3