从高考到奥林匹克竞技场:大模型与人类智能的终极较量

简介: 【6月更文挑战第29天】上海交大等团队的OlympicArena测试评估了大模型在多学科认知推理任务上的能力,涵盖7个学科11,163个问题。最先进模型GPT-4的整体准确率为39.97%,数学和物理仅28.67%和29.71%,显示在复杂推理任务上的局限。尽管如此,模型在部分推理步骤中展现出潜力,但在空间推理和抽象符号理解上仍有挑战。[论文链接](https://arxiv.org/pdf/2406.12753)

在人工智能(AI)领域,大模型的崛起为我们带来了前所未有的智能体验。这些大模型,如GPT-4和LLaMA,在各种任务上展示了令人惊叹的性能,从文本生成到图像识别,再到复杂的数学推理。然而,这些模型是否真的具备了与人类相当的智能呢?

最近,来自上海交大、上海人工智能实验室和Generative AI Research Lab(GAIR)的研究团队提出了一个名为OlympicArena的基准测试,旨在评估大模型在多学科认知推理任务上的能力。这个基准测试包含了来自七个学科(数学、物理、化学、生物学、地理学、天文学和计算机科学)的11,163个问题,涵盖了从高中到大学的各种难度级别。

在OlympicArena的测试中,研究团队发现,即使是最先进的大模型,如GPT-4,也只能达到39.97%的总体准确率。在数学和物理学这两个被认为对认知推理能力要求较高的学科中,GPT-4分别只能达到28.67%和29.71%的准确率。这表明,尽管大模型在许多任务上表现出色,但它们在处理复杂的、多学科的认知推理任务时仍然存在明显的局限性。

然而,OlympicArena的测试也揭示了大模型的一些潜力。例如,在过程级评估中,研究团队发现,即使是在那些最终答案错误的问题中,大模型也能够正确地执行一些推理步骤。这表明,大模型可能具备解决复杂问题所需的基本能力,但它们在将这些能力应用于实际问题时仍然存在一些挑战。

OlympicArena的测试还揭示了大模型的一些局限性。例如,研究团队发现,大模型在处理那些需要进行复杂推理的问题时表现不佳,尤其是在那些需要进行空间和几何推理的问题中。此外,大模型在处理那些需要进行抽象符号理解的问题时也存在一些困难。

论文地址:https://arxiv.org/pdf/2406.12753

目录
相关文章
|
人工智能 自然语言处理 达摩院
达摩院智能对话技术升级-更人类,更温暖-卷首语
达摩院智能对话技术升级-更人类,更温暖-
100 0
|
机器学习/深度学习 传感器 算法
中外专家共同论道 | 人脑与机器渐行渐近,脑机接口「黑科技」照进现实
中外专家共同论道 | 人脑与机器渐行渐近,脑机接口「黑科技」照进现实
100 0
|
机器学习/深度学习 传感器 人工智能
科学家打造出能让机器人拥有近乎人类触感的人工指尖
来自伦敦大学学院的触摸研究员Mandayam Srinivasan表示,研究人员正在“让自然和人工触摸领域更加接近。
科学家打造出能让机器人拥有近乎人类触感的人工指尖
|
机器学习/深度学习 人工智能 达摩院
|
传感器 人工智能 算法
当AI碰上足球,DeepMind和利物浦队擦出了火花
最近DeepMind与英超卫冕冠军利物浦合作,一个测试算法,一个寻求AI帮助——希望借助AI帮球员进球,那么结果如何呢?
173 0
当AI碰上足球,DeepMind和利物浦队擦出了火花
|
新零售 人工智能 iOS开发
8月9日科技联播: 维基百科的性格偏见,AI发现其忽视的4万名科学家多为女性
整整4万名女科学家遭埋没!至今才被AI发现,维基百科到底在想什么?Facebook访问量减半,YouTube恐怕将超越facebook成为大赢家!美国议员检举苹果监听用户电话,苹果反击:谁要听你们打电话了? 沃尔玛160亿美元Flipkart,这是要公然和亚马逊分庭抗礼?一起来看看今天的科技快讯!
15673 0
|
人工智能 机器人
不造AI杀人武器当然好,但牛津学者觉得马斯克们忽略了重点
牛津大学的学者Mariarosaria Taddeo (简称玛利亚) 说,他们忽略了一个重点。而且,把万众目光集中在“AI杀手”上,人们就更难注意到那个重点了。
1202 0
|
人工智能 安全
【巨星陨落】霍金今日去世,但人类对宇宙和AI的探索永无止境
霍金去世的消息令全世界都陷入深切哀悼。霍金曾积极关注人工智能,指出我们要对AI发展保持警惕。3月14日也是爱因斯坦诞辰139年的日子,上帝在同一天送来了一位天才,而带走了另一位。人类对宇宙和AI的探索永无止境,让我们以这样的方式祭奠这两位伟人。
15029 0