图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估

简介: 图灵测试Out啦!首个为AI设置的“IQ测试”:玩游戏、解魔方、考SAT全面评估

自从计算机问世,人们对于机器便开始了永无止境的探索,如何让机器更聪明。

那么怎么判断机器的“聪明程度”呢?最经典的方法当然是“图灵测试”。


早在1950年,图灵发表了一篇划时代的论文,他表示机器也可以拥有智能,像人一样会“思考”,并且提出了图灵测试:测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果机器让平均每个参与者做出超过30%的误判,那么这台机器就通过了测试,并被认为具有人类智能。


2015年11月,《Science》杂志封面刊登了一篇重磅研究:人工智能终于能像人类一样学习,并通过了图灵测试。这个系统能够迅速学会写陌生的文字,同时还能识别出非本质特征(也就是那些因书写造成的轻微变异),通过了图灵测试,这也是人工智能领域的一大进步。


因为易于理解又简单可控,这一测试方法自诞生起,一直被看作测试人工智能是否智能的重要方式。但是随着AI系统的快速发展,其复杂性正在迅速上升,而这些年,各种新的人工智能“智能”测试方法正层出不穷的涌现。

近期,华盛顿州立大学电子工程与计算机科学学院的教授Larry Holder表示,“以前,测量AI系统智能与否的研究大多是理论性的,没有在未知的新环境中测试AI系统的实际性能,也没有考虑到任务的复杂性。”



于是Holder和他的团队正在为AI系统创建首个“IQ测试”,以了解它们学习和适应新环境的能力,测试根据AI系统所能解决问题的难度对其进行评分,评分还将考虑系统的准确性、耗时以及所需的数据量。该研究的主要内容之一就是创建对问题难度进行排名的方法。Holder表示,“我们专注于测试和改进那些更具通用性的系统,比如可以帮助你完成许多日常任务的机器人助手。”研究人员主要关注的是,他们测试的AI系统能否很好地将它们从一个任务中学到的知识应用到另一个全新的,未知的任务上。例如,你可能想在下象棋之前先学习跳棋,因为可以很容易地把跳棋的知识转移到象棋。一名与Holder一起做暑期研究的本科生帮助他设计了一个评估环境,用于测试AI系统需要完成的任务,比如玩视频游戏、解答SAT考试的相关问题和解魔方。


可根据AI系统学习和玩新的视频游戏(例如Vizdoom)的能力来评估AI系统

Holder目前在维护一个AI系统可以进行“IQ测试”和排行的网站。他希望大家都可以使用它来测试自己的AI系统,同时在这个过程中为研究人员提供更多的数据。

要想测试,需要先创建一个AIQ帐户,然后在AIQ的后端提交分数。AIQ是一个开源测试框架,用于评估AI系统的“智商”。有关运行AIQ框架的详细教程及代码都在Github上,感兴趣的同学可以上手测一下~


AIQ网站地址:https://portal.eecs.wsu.edu/aiq/

研究人员希望利用这一框架,为人工智能评估提供一个开放的度量标准。另外,他们还将利用这一框架来确定人工智能领域的发展情况,以及在实现通用智能方面是否取得了进展。



Github教程

https://github.com/Christopher-P/AIQ#tutorial

 

DeepMind曾为AI定制一套IQ测试题


Holder教授不是第一个想突破图灵测试、为AI测智商的人。去年,DeepMind就动过为AI测智商的念头~先来看下面这张图,有没有熟悉的感觉!这种图形推理题,考过公务员的同学一定都不陌生~它能够用来考察我们的观察与逻辑推理能力,也是IQ测试题的一种。



去年,DeepMind发表了一篇论文,想要用这些推理题来测试神经网络的抽象推理能力。论文链接:http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf研究人员将抽象推理定义为在概念层次上检测模型和解决问题的能力,因此他们构建了一个涉及一系列抽象因素的题目生成器,以此来测试和训练机器学习。


在测试中,大多数模型都表现良好。研究人员发现,模型准确性与推断任务底层抽象概念的能力密切相关。“有些模型学会了解决复杂的视觉推理问题,”该团队写道,“为此,他们需要从原始像素输入中引入并检测抽象概念的存在,并将这些原则应用于从未观察到的刺激。“对于我们来说,考试前大家往往都会大量“刷题”,所以如果受试者准备太多,这样的测试也可能无效,因为我们学到了特定于测试的启发式方法,从而缩短了对推理的需求。研究人员也表示, “这对神经网络而言可能更严重,因为它们具有惊人的记忆能力。”最终的研究结果表明,想得出关于泛化的普遍结论可能是无益的:研究人员测试的神经网络在某些泛化方案中表现良好,而在其他方面表现很差。该团队在一篇博客文章中写道,“它们的成功是由一系列因素决定的,包括所用模型的架构以及该模型是否经过培训等等。”虽然实验结果可能是一个“大杂烩”,但研究人员还没有放弃,他们计划改进泛化策略,并探索在未来的模型中使用“结构丰富,但普遍适用”的归纳偏差。

AI研究之路艰辛漫长,“IQ测试”或许来的有点早


创造能够在新环境中自主学习和行动的智能机器,仍然是人工智能研究者们追求的方向,也是目前所面临的挑战。

Holder和他的团队建立这样一个测试系统,旨在测试和改进那些更具通用性的系统,比如可以完成许多日常任务的机器人助手。这是一个很好的研究方向,但实际上,要想实现“通用人工智能”,还有很长一段路要走。现在的人工智能技术,虽然在一些特定的领域以及实际应用上具备超人的能力了,但是它还需要大量的数据来进行训练。这种人工智能也被称为面向特定任务的“窄人工智能”,例如人脸检测、语音识别。未来希望能够达到“通用人工智能”,即具备人一样的智能,能够不断的自主学习,在更广的范围内提升整个机器的智能。  IBM副总裁、IBM大中华区首席技术官谢东曾在演讲中表示,“通用人工智能可能还需要一段时间才能实现,我们经常说可能是2050年以后吧。”(划重点:可能)那么现在,研究人员们正在努力把“窄人工智能”变成“宽人工智能”,所谓宽是什么?在学习的基础上加入一些推理的能力,这样就可以支持多任务、多领域、多模态的学习。美国哥伦比亚大学创意机器实验室总监、工程学教授Hod Lipson与团队研究出一款可以自我学习的机器人。它只有一个“手臂”,不像我们拥有眼睛可以看到自己,研究人员也没有告诉它它是什么,而是让它自己去感受,在自我想象中学习。


 

一开始它像婴儿般疯狂的甩着手臂,在感知自己的形态,感知这个世界。过了大概一天,它就可以开始做一些简单的任务了。这样简单的任务完全可以通过编程让它达到,但是这个机器人在它自己的模拟中学会了这项任务,这是人类迈向建造具备自我学习能力的机器人的重要一步。最后不得不说,在人工智能不断发展的同时,我们必须要确保是“可信的人工智能”,因为要把人工智能进行大规模应用的话,一定要保证它是可信的。

相关报道:https://news.wsu.edu/2019/12/12/iq-test-artificial-intelligence-systems/

相关文章
|
2月前
|
存储 人工智能 运维
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
241 48
【01】做一个精美的打飞机小游戏,浅尝阿里云通义灵码python小游戏开发AI编程-之飞机大战小游戏上手实践-优雅草央千澈-用ai开发小游戏尝试-分享源代码和游戏包
|
3天前
|
数据采集 算法 测试技术
【硬件测试】基于FPGA的1024QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的1024QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集和vio在线SNR设置模块,支持不同SNR条件下的性能测试。1024QAM调制将10比特映射到复平面上的1024个星座点之一,实现高效数据传输。硬件测试结果表明,在SNR=32dB和40dB时,系统表现出良好的性能。Verilog核心程序展示了各模块的连接与功能实现。
27 7
|
1月前
|
人工智能 物联网 开发者
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
Oumi 是一个完全开源的 AI 平台,支持从 1000 万到 4050 亿参数的模型训练,涵盖文本和多模态模型,提供零样板代码开发体验。
247 43
Oumi:开源的AI模型一站式开发平台,涵盖训练、评估和部署模型的综合性平台
|
1月前
|
人工智能 自然语言处理 API
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
OpenDeepResearcher 是一款开源 AI 研究工具,支持异步处理、去重功能和 LLM 驱动的决策,帮助用户高效完成复杂的信息查询和分析任务。
179 18
OpenDeepResearcher:开源 AI 研究工具,自动完成搜索、评估、提取和生成报告
|
1天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的4FSK调制解调通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文基于之前的文章《基于FPGA的4FSK调制解调系统》,增加了ILA在线数据采集模块和VIO在线SNR设置模块,实现了硬件测试版本。通过VIO设置不同SNR(如10dB和20dB),并展示了ILA采集的数据结果。四频移键控(4FSK)是一种数字调制方法,利用四个不同频率传输二进制数据,具有较高的频带利用率和抗干扰性能。输入的二进制数据分为两组,每组两个比特,对应四个频率f1、f2、f3、f4,分别代表二进制组合00、01、10、11。调制过程中选择相应频率输出,并进行幅度调制以增强抗干扰能力。接收端通过带通滤波器提取信号并还原为原始二进制数据。
21 7
|
21天前
|
人工智能 自然语言处理 测试技术
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
AxBench 是由斯坦福大学推出,用于评估语言模型可解释性方法的基准测试框架,支持概念检测和模型转向任务,帮助研究者系统地比较不同控制技术的有效性。
43 5
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
|
5天前
|
数据采集 算法 数据处理
【硬件测试】基于FPGA的256QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的256QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集和vio在线SNR设置模块,支持不同信噪比(如30dB和40dB)的仿真测试,并提供配套操作视频。256QAM调制方案每个符号携带8比特信息,通过复数值星座图映射实现高效传输。Verilog代码展示了核心模块设计,包括SNR设置、数据处理和ILA测试分析,确保系统在实际硬件环境中的稳定性和性能。
15 2
|
9天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的16QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的16QAM基带通信系统硬件测试版本。该系统在仿真基础上增加了ILA在线数据采集和VIO在线SNR设置模块,支持不同信噪比(如15dB、25dB)的测试。16QAM是一种正交幅度调制方式,通过两路4ASK信号叠加实现,每个符号包含4比特信息。系统采用正交调幅法生成16QAM信号,并通过DAC转换为模拟信号。解调时使用正交相干解调,经低通滤波器恢复电平信号。开发板内完成发射与接收,无需定时同步模块。代码可移植至其他开发板,具体步骤见配套文档。
21 2
|
15天前
|
数据采集 算法 测试技术
【硬件测试】基于FPGA的2ASK调制解调系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍基于FPGA的2ASK调制解调系统,涵盖仿真效果、理论知识、Verilog核心程序及开发板使用说明。系统包含testbench、高斯信道模块和误码率统计模块,支持不同SNR设置。硬件测试版本增加了ILA在线数据采集和VIO在线SNR设置功能。2ASK调制通过改变载波振幅传输二进制信号,FPGA实现包括系统设计、Verilog编码、仿真测试和硬件部署。详细操作步骤见配套视频,代码适用于多种开发板,提供移植方法。
27 1
|
6天前
|
数据采集 算法 数据安全/隐私保护
【硬件测试】基于FPGA的64QAM基带通信系统开发与硬件片内测试,包含信道模块,误码统计模块,可设置SNR
本文介绍了基于FPGA的64QAM基带通信系统的硬件测试版本,包含testbench、高斯信道模块和误码率统计模块。系统新增ila在线数据采集模块和vio在线SNR设置模块,支持不同SNR条件下的仿真与测试。通过设置SNR为25dB和30dB进行测试,验证了系统的可行性和性能。此外,本文详细阐述了64QAM调制解调的工作原理,包括信号生成、调制、解调及误码率测试等环节,并提供了Verilog核心程序代码。
16 0

热门文章

最新文章