从高考到奥林匹克竞技场:大模型与人类智能的终极较量

简介: 【6月更文挑战第29天】上海交大等团队的OlympicArena测试评估了大模型在多学科认知推理任务上的能力,涵盖7个学科11,163个问题。最先进模型GPT-4的整体准确率为39.97%,数学和物理仅28.67%和29.71%,显示在复杂推理任务上的局限。尽管如此,模型在部分推理步骤中展现出潜力,但在空间推理和抽象符号理解上仍有挑战。[论文链接](https://arxiv.org/pdf/2406.12753)

在人工智能(AI)领域,大模型的崛起为我们带来了前所未有的智能体验。这些大模型,如GPT-4和LLaMA,在各种任务上展示了令人惊叹的性能,从文本生成到图像识别,再到复杂的数学推理。然而,这些模型是否真的具备了与人类相当的智能呢?

最近,来自上海交大、上海人工智能实验室和Generative AI Research Lab(GAIR)的研究团队提出了一个名为OlympicArena的基准测试,旨在评估大模型在多学科认知推理任务上的能力。这个基准测试包含了来自七个学科(数学、物理、化学、生物学、地理学、天文学和计算机科学)的11,163个问题,涵盖了从高中到大学的各种难度级别。

在OlympicArena的测试中,研究团队发现,即使是最先进的大模型,如GPT-4,也只能达到39.97%的总体准确率。在数学和物理学这两个被认为对认知推理能力要求较高的学科中,GPT-4分别只能达到28.67%和29.71%的准确率。这表明,尽管大模型在许多任务上表现出色,但它们在处理复杂的、多学科的认知推理任务时仍然存在明显的局限性。

然而,OlympicArena的测试也揭示了大模型的一些潜力。例如,在过程级评估中,研究团队发现,即使是在那些最终答案错误的问题中,大模型也能够正确地执行一些推理步骤。这表明,大模型可能具备解决复杂问题所需的基本能力,但它们在将这些能力应用于实际问题时仍然存在一些挑战。

OlympicArena的测试还揭示了大模型的一些局限性。例如,研究团队发现,大模型在处理那些需要进行复杂推理的问题时表现不佳,尤其是在那些需要进行空间和几何推理的问题中。此外,大模型在处理那些需要进行抽象符号理解的问题时也存在一些困难。

论文地址:https://arxiv.org/pdf/2406.12753

目录
相关文章
|
Web App开发 机器学习/深度学习 人工智能
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
|
机器学习/深度学习 传感器 算法
中外专家共同论道 | 人脑与机器渐行渐近,脑机接口「黑科技」照进现实
中外专家共同论道 | 人脑与机器渐行渐近,脑机接口「黑科技」照进现实
134 0
|
传感器 人工智能 算法
当AI碰上足球,DeepMind和利物浦队擦出了火花
最近DeepMind与英超卫冕冠军利物浦合作,一个测试算法,一个寻求AI帮助——希望借助AI帮球员进球,那么结果如何呢?
206 0
当AI碰上足球,DeepMind和利物浦队擦出了火花
|
安全 大数据 网络安全
人类智慧:大安全时代的“新大陆”
人类智慧:大安全时代的“新大陆”
164 0
人类智慧:大安全时代的“新大陆”
|
机器学习/深度学习 人工智能 算法
|
人工智能 安全
【巨星陨落】霍金今日去世,但人类对宇宙和AI的探索永无止境
霍金去世的消息令全世界都陷入深切哀悼。霍金曾积极关注人工智能,指出我们要对AI发展保持警惕。3月14日也是爱因斯坦诞辰139年的日子,上帝在同一天送来了一位天才,而带走了另一位。人类对宇宙和AI的探索永无止境,让我们以这样的方式祭奠这两位伟人。
15059 0
|
人工智能 算法 机器人
LeCun再度炮轰机器人索菲娅:AI骗子+人工智障
一月,机器人Sophia来到中国,开微博、晒机票、秀中文、上央视、拍写真,一系列商业动作让人质疑这是炒作还是真的科技进步,Facebook AI研究部门的负责人Yann LeCun一直就是这样一个冷静的批判者,近日,在其社交媒体两次发声:“Sophia之于AI,就如同玩杂耍之于高级魔术”,其表示汉森机器人的Sophia形象过度地夸大了机器人的能力,误导公众了解AI现状,Sophia并不能正确反映现行AI的真正水平。
1956 0