AI瑞文智力测验超美国人平均IQ,计算模型用类比推理解决视觉问题

简介:


image


作为广泛应用于无国界的智力/推理能力测试,瑞文标准推理测验可以测验一个人的观察力及推理能力。在此前一项广受争议的对超过 80 个国家和地区进行的 IQ 调查中,曾得出了所谓的“国家(和地区)平均 IQ”。美国西北大学的研究团队开发出了一个新的模型,能够在标准智力测试中超过到美国人的平均 IQ 水平。这项研究构建了用类比推理解决视觉问题的模型,研究者表示:“目前绝大多关于视觉的 AI 研究都集中在对象识别或场景标记,而非推理。但是识别只有能够为后续推理所用才有其意义。我们的研究对于更广泛地认识视觉推理有重要意义。”

AI 模型在瑞文推理测试中表现超过了美国人的平均水平

前一段时间,美国西北大学的研究团队开发出了一个新的计算模型,能够在标准智力测试中达到人类水平。这项研究对于让 AI 像人类那样“看”并理解这个世界有重要意义。

让我们先看看什么是“人类水平”——研究所用的智力测试是瑞文标准推理测验(Raven's Standard Progressive Matrices,简称 SPM),由英国心理学家瑞文(J.C.Raven)于1938年创制,在世界各国沿用至今,用以测验一个人的观察力及清晰思维的能力。它是一种纯粹的非文字智力测验,所以广泛应用于无国界的智力/推理能力测试。

从 2002 年到 2006 年,英国心理学教授 Richard Lynn 和芬兰政治学教授 Tatu Vanhanen 在超过 80 个国家和地区进行了一次 IQ 调查,得出了所谓的“国家(和地区)平均 IQ”——这一结果引发了大量争议,对这一结果的诠释需要非常小心。


image

这是在调查中排名前 10 位的国家和地区,其中有不少名词是并列的。我们可以看到,中国香港和新加坡的国家平均 IQ 最高,达到 108。中国的国家平均 IQ 是 105,和日本并列第三。排在第二的是韩国(106)。美国的国家平均 IQ 是98,排在第9。

本文末尾,我们附上了 80 多个国家和地区的国家平均 IQ 排名。

图像识别只有能够为后续推理所用才有其意义

模型的开发者是西北大学 McCormick 工学院的电气工程和计算机科学教授 Ken Forbus 和前西北大学心理学博士后研究员 Andrew Lovett 。这一研究发表在了《心理学评论》(Psychological Review)上。

image

Ken Forbus 介绍说:“相对于成年美国人来说,该模型能够达到第 75 百分位,高出平均水平。人类感觉困难的问题,模型一样会感到困难。这显示出它具有和人类认知相似的一些特性。”


image
Ken Forbus

Forbus 的实验室开发了一个称为 CogSketch 的人工智能平台,能够解决视觉问题和理解图形,并给出即时、互动的反馈。新模型就是在这一平台上开发而成的。

CogSketch 还引入了一个基于西北大学心理学教授 Dedre Gentner 的结构映射理论的类比计算模型。Gentner 因该理论获得了 2016 年的 David E. Rumelhart 奖。

解决复杂视觉问题的能力是人类智力的重要特征之一。开发具有这一能力的 AI 系统体现了符号表征与类比在视觉推理中的重要性,并可能弥合计算机同人类认知之间的鸿沟。

image


上图是瑞文标准推理测验中的一道题目。根据题目中所展示的元素之间的关系,答题者被要求在空缺中填出应有的图形组合,选项一般有 6 - 8 个。

聪明如你,一定闪电般做出了选择。


image

这两道题是测试中比较难的——无论是对于人类还是对于 AI 来说,但它们无疑难不住关注新智元的你。

有兴趣做一套瑞文测试?可以去这里:http://www.ravensprogressivematricestest.com。一共有 60 道题。

“瑞文测试是现有的对心理学家所说的“流体智力”——即抽象思维、推理、模式识别、解决问题和判别关系的一般能力——的最佳测试方法。”Lovett 说,他目前在美国海军研究实验室担任研究员。“我们的研究结果显示,对流体智力来说,灵活运用关系表征,并进行对比和再次阐释的能力非常重要。”

使用和理解复杂关系表征的能力是高级认知(higher-order cognition)的关键。关系表征连接了实体和概念,比如“钟表在门上方”或“压力差导致了水的流动”。这类比较对于制造和进行类比至关重要。而这正是人类赖以解决难题、做出取舍以及描述他们身边世界的关键方法。

Forbus 说:“目前绝大多关于视觉的 AI 研究都集中在对象识别或场景标记,而非推理。但是识别只有能够为后续推理所用才有其意义。我们的研究对于更广泛地认识视觉推理有重要意义。”

构建用类比推理解决视觉问题的模型


image

模型的开发者 Ken Forbus 和 Andrew Lovett 在《心理学评论》(Psychological Review)上发表了研究报告,题为《Modeling Visual Problem as Analogical Reasoning》。

研究者表示,类比也许是人类智能的一个里程碑。通过比较两个领域并确定其结构的共同点,可以推导出有用的推论、得出有启发性的抽象结果。类比可以驱动科学发现,当年 Rutherford 就曾提出的电子围绕着原子旋转,就像卫星围绕着太阳旋转一样。但它也在我们的日常生活中扮演了重要的角色,让我们将过去学习到的经验应用到当下,比如,解决物理问题,选择电影观看或考虑购买新车一样。

类比的力量在于它的抽象本质。我们可以比较两种截然不同的情景,基于其关系结构的共同点,将我们在一种场景中学到的东西应用到另一种场景中。鉴于这种高度抽象的思维方式及其在人类推理中的重要性,当研究人员想要测试个人的推理能力时,他们往往依赖于具体的视觉任务,这可能令人感到意外。

image
图1

图1描述了 Raven Progressive Matrices (RPM)智能测试中的一个问题例子。这一测试要求参与者在一个三行三列的矩阵中对图像进行比较。RPM 被设计用于衡量被测试者的演绎能力(也就是在复杂的模拟环境中发现模式的能力),这一术语近期被另一个叫“流体智能”的词取代。近10年来,这一术语依然非常受欢迎,因为在预测被测试者的行为表现商,它取得了较大的成果,而且不仅是在视觉测试集,还包括口语的和数学的数据集等。


image
图2

一个视觉测试为什么能在衡量通用的问题上会有如此好的效果?解决问题?研究者认为,去掉其固有的本质,RPM测试了个人进行高效的类比的能力。RPM与类比之间的联系在图 2 中得到了良好的证明。

image


上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。

在这种分析中,视觉(或者几何学)、口语和数学的类比方法都围绕着 RPM 进行聚合,这意味着,二者之间有着强大的关联,所以从整体上能对二者进行衡量。确实,RPM 能被看成是一个复杂的几何学类比问题,其中被试者必须定义首先出现的两张图片和顶层最上面一张图片之间的关系,进而计算出一个能在底部产生类比联系的图像。与这一说法相一致,Holyoak 和同事展示了,在进行类比的地图绘制和检索时,高的 RPM 表现要求更少的协助。

此外,一项脑成像研究的元分析发现,言语类比,几何类比和矩阵问题产生了可能与关系推理相关的常见脑区,也就是左侧前额叶前额叶标记。


image


上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。

研究者认为,支持有效类比的机制和策略也是支持视觉问题解决的机制和策略。为了测试这个说法,他们使用一个完善的计算模型,即结构映射引擎(RPM),对人力资源管理的绩效进行了模拟。虽然中小企业最初是为抽象类比而设计的,但越来越多的证据表明,其基本原则也适用于具体的视觉比较。RPM提供了测试大规模测类比在视觉思维中起作用的机会,并确定在SME提供的类比映射之外执行此任务所需的组件。特别是,考虑到感知和再现表现的双重挑战:你如何以支持抽象类比思想的方式来表达具体的视觉信息,当图像失调时如何改变表示?


image


上图展示了 RPM 测试题(模拟题)的“智能考察点”,即所谓的 Carpenter rules (Carpenter 等,1990),以及研究者所开发的模型在解题时所采取的策略。

这种方法还使研究者能够获得有关 RPM 的新洞见。通过去除模型执行某些操作的能力,并将由此产生的错误与人类成绩进行比较,研究者可以确定是哪些因素在让一道问题变得更容易或更难。如下所示,当(a)问题必须更抽象地表达或(b)需要复杂的重新表征操作时(complex rerepresentation),问题往往会变得更困难。最后,研究者关注的是,RPM 中的抽象思维和重新表征是否可能泛化到其他类比任务,从而成为人类智力的核心。

研究者详细地描述了 RPM,包括一个此前已经构建好的计算模型。之后,研究者提出了他们的理论框架,展示了类比推理如何更广泛地映射到 RPM和视觉问题的解决上。然后研究者描述了基于这一框架的计算模型。

国家平均 IQ 排名


image
image
image
image
image

原文发布时间为:2017-09-04
译者:熊笑 弗格森
本文来自云栖社区合作伙伴新智元,了解相关信息可以关注“AI_era”微信公众号
原文链接

相关文章
|
24天前
|
机器学习/深度学习 人工智能 算法
AI音乐生成创企发新模型 几秒生成两分钟歌曲
Suno公司推出AI音乐生成模型,基于深度学习和大数据,快速创作符合用户喜好的歌曲,简化音乐创作流程,让业余爱好者也能参与。该模型高度可定制,支持二次创作,引发行业关注。创始人强调,目标是辅助而非取代人类音乐家,旨在促进音乐产业创新与发展。
55 1
AI音乐生成创企发新模型 几秒生成两分钟歌曲
|
28天前
|
机器学习/深度学习 人工智能
谷歌发AI足球教练模型TacticAI 登Nature子刊
【2月更文挑战第30天】谷歌DeepMind与利物浦FC合作开发的TacticAI是一款人工智能足球战术助手,能分析角球战术并提供建议,已在《Nature Communications》发表。利用图机器学习和几何深度学习,TacticAI预测角球战术并在90%情况下优于传统方法。该系统有助于教练制定精准战术,但实际比赛中的适应性和数据隐私限制了其潜力的完全发挥。
36 2
谷歌发AI足球教练模型TacticAI 登Nature子刊
|
1月前
|
人工智能 自然语言处理 API
Google Gemma 模型服务:开放的生成式 AI 模型服务
Google Gemma 模型服务:开放的生成式 AI 模型服务
109 4
|
29天前
|
人工智能 编解码 物联网
Stability AI推出新的AI图像生成模型Stable Cascade,对比 SD2.1 的算力成本降低了10倍左右!
Stability AI推出新的AI图像生成模型Stable Cascade,对比 SD2.1 的算力成本降低了10倍左右!
|
1月前
|
人工智能 运维 自然语言处理
智领,万象新生:智谱AI推动大模型商业化迈向新阶段
放眼当下的科技浪潮,AI大模型无疑是一年多来持续引人注目的焦点。基于大模型的算法推理,30秒即可生成完美可用的Word、PPT文档,工作时长不必再以小时计算;真人对话一般输入简短文字,就能在30秒内得到想要的图画、代码、文本、视频……大模型让科幻小说中的场景,走进了千行百业、千家万户的现实生活。
|
3天前
|
机器学习/深度学习 编解码 人工智能
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
Transformer 和扩散模型的生成式 AI 实用指南(预览版)
|
3天前
|
数据采集 人工智能 编解码
二次元专用超分AI模型APISR:在线可用,入选CVPR
【4月更文挑战第15天】APISR是一款由密歇根大学、耶鲁大学和浙江大学联合研发的AI模型,专攻动漫风格的超分辨率问题。在CVPR会议上发表的这项成果,通过理解动漫制作流程,针对性地收集和处理训练数据,提升了动漫图像的清晰度和视觉效果。APISR引入预测导向的压缩模块和平衡的双感知损失函数,有效恢复手绘线条并减少颜色伪影。此外,模型关注图像复杂性,优化训练数据质量和学习效率。尽管面临处理复杂场景和颜色偏差的挑战,APISR为动漫图像处理开辟了新方向。
7 1
二次元专用超分AI模型APISR:在线可用,入选CVPR
|
12天前
|
Web App开发 人工智能
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
55 3
阿里放大招了!“通义听悟”确实有点新意了,为国产AI大模型打响应用第一枪
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
大模型落地实战指南:从选择到训练,深度解析显卡选型、模型训练技、模型选择巧及AI未来展望---打造AI应用新篇章
|
24天前
|
机器学习/深度学习 人工智能 监控
面向中文大模型价值观的评估与对齐研究:“给AI的100瓶毒药”并解毒,守护AI纯净之心
面向中文大模型价值观的评估与对齐研究:“给AI的100瓶毒药”并解毒,守护AI纯净之心
面向中文大模型价值观的评估与对齐研究:“给AI的100瓶毒药”并解毒,守护AI纯净之心

热门文章

最新文章