从高考到奥林匹克竞技场:大模型与人类智能的终极较量

简介: 【6月更文挑战第29天】上海交大等团队的OlympicArena测试评估了大模型在多学科认知推理任务上的能力,涵盖7个学科11,163个问题。最先进模型GPT-4的整体准确率为39.97%,数学和物理仅28.67%和29.71%,显示在复杂推理任务上的局限。尽管如此,模型在部分推理步骤中展现出潜力,但在空间推理和抽象符号理解上仍有挑战。[论文链接](https://arxiv.org/pdf/2406.12753)

在人工智能(AI)领域,大模型的崛起为我们带来了前所未有的智能体验。这些大模型,如GPT-4和LLaMA,在各种任务上展示了令人惊叹的性能,从文本生成到图像识别,再到复杂的数学推理。然而,这些模型是否真的具备了与人类相当的智能呢?

最近,来自上海交大、上海人工智能实验室和Generative AI Research Lab(GAIR)的研究团队提出了一个名为OlympicArena的基准测试,旨在评估大模型在多学科认知推理任务上的能力。这个基准测试包含了来自七个学科(数学、物理、化学、生物学、地理学、天文学和计算机科学)的11,163个问题,涵盖了从高中到大学的各种难度级别。

在OlympicArena的测试中,研究团队发现,即使是最先进的大模型,如GPT-4,也只能达到39.97%的总体准确率。在数学和物理学这两个被认为对认知推理能力要求较高的学科中,GPT-4分别只能达到28.67%和29.71%的准确率。这表明,尽管大模型在许多任务上表现出色,但它们在处理复杂的、多学科的认知推理任务时仍然存在明显的局限性。

然而,OlympicArena的测试也揭示了大模型的一些潜力。例如,在过程级评估中,研究团队发现,即使是在那些最终答案错误的问题中,大模型也能够正确地执行一些推理步骤。这表明,大模型可能具备解决复杂问题所需的基本能力,但它们在将这些能力应用于实际问题时仍然存在一些挑战。

OlympicArena的测试还揭示了大模型的一些局限性。例如,研究团队发现,大模型在处理那些需要进行复杂推理的问题时表现不佳,尤其是在那些需要进行空间和几何推理的问题中。此外,大模型在处理那些需要进行抽象符号理解的问题时也存在一些困难。

论文地址:https://arxiv.org/pdf/2406.12753

目录
相关文章
|
22天前
|
机器学习/深度学习 人工智能 自然语言处理
从平凡到非凡:借AI风口普通人如何起飞?
雷军曾说:“站在风口上,猪也能飞上天。”而AI无疑是当前最强劲的风口。本文介绍了如何抓住AI时代的机遇,包括理解AI基础概念、选择合适的AI工具、将AI融入工作提升效率,以及利用AI创造被动收入。通过这些步骤,你将能够在AI浪潮中获得成功。
58 0
从平凡到非凡:借AI风口普通人如何起飞?
|
8月前
ChatGPT 淘金潮(全)
ChatGPT 淘金潮(全)
167 0
|
Web App开发 机器学习/深度学习 人工智能
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
用魔法打败魔法!一个叫板顶级人类棋手的围棋AI输给了它的同类
106 0
|
传感器 人工智能 算法
当AI碰上足球,DeepMind和利物浦队擦出了火花
最近DeepMind与英超卫冕冠军利物浦合作,一个测试算法,一个寻求AI帮助——希望借助AI帮球员进球,那么结果如何呢?
223 0
当AI碰上足球,DeepMind和利物浦队擦出了火花
|
机器学习/深度学习 人工智能 机器人
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
2016 年 11 月,DeepMind 与著名游戏公司暴雪宣布将在即时战略游戏《星际争霸 2》上合作,这家隶属谷歌的公司将在游戏平台中进行人工智能研究。近两年来,DeepMind 的研究进度时有透露,但距离「人机对战」似乎还有很长一段距离。刚刚,DeepMind 宣布即将公布一个有关星际争霸 2 的「最新进展」,而且会以线上直播的形式展现在世人面前。
186 0
DeepMind星际争霸2 AI首秀即将上演,旭东老仙奶一口?
|
机器学习/深度学习 人工智能 监控
AI说长这样挣得多!Nature力证科学看相,3万张自拍揭露面相-性格关系,碾压算命先生
AI说长这样挣得多!Nature力证科学看相,3万张自拍揭露面相-性格关系,碾压算命先生
454 0
|
人工智能 机器人
不造AI杀人武器当然好,但牛津学者觉得马斯克们忽略了重点
牛津大学的学者Mariarosaria Taddeo (简称玛利亚) 说,他们忽略了一个重点。而且,把万众目光集中在“AI杀手”上,人们就更难注意到那个重点了。
1230 0

热门文章

最新文章