从高考到奥林匹克竞技场：大模型与人类智能的终极较量-阿里云开发者社区

从高考到奥林匹克竞技场：大模型与人类智能的终极较量

2024-06-29 5

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第29天】上海交大等团队的OlympicArena测试评估了大模型在多学科认知推理任务上的能力，涵盖7个学科11,163个问题。最先进模型GPT-4的整体准确率为39.97%，数学和物理仅28.67%和29.71%，显示在复杂推理任务上的局限。尽管如此，模型在部分推理步骤中展现出潜力，但在空间推理和抽象符号理解上仍有挑战。[论文链接](https://arxiv.org/pdf/2406.12753)

在人工智能（AI）领域，大模型的崛起为我们带来了前所未有的智能体验。这些大模型，如GPT-4和LLaMA，在各种任务上展示了令人惊叹的性能，从文本生成到图像识别，再到复杂的数学推理。然而，这些模型是否真的具备了与人类相当的智能呢？

最近，来自上海交大、上海人工智能实验室和Generative AI Research Lab（GAIR）的研究团队提出了一个名为OlympicArena的基准测试，旨在评估大模型在多学科认知推理任务上的能力。这个基准测试包含了来自七个学科（数学、物理、化学、生物学、地理学、天文学和计算机科学）的11,163个问题，涵盖了从高中到大学的各种难度级别。

在OlympicArena的测试中，研究团队发现，即使是最先进的大模型，如GPT-4，也只能达到39.97%的总体准确率。在数学和物理学这两个被认为对认知推理能力要求较高的学科中，GPT-4分别只能达到28.67%和29.71%的准确率。这表明，尽管大模型在许多任务上表现出色，但它们在处理复杂的、多学科的认知推理任务时仍然存在明显的局限性。

然而，OlympicArena的测试也揭示了大模型的一些潜力。例如，在过程级评估中，研究团队发现，即使是在那些最终答案错误的问题中，大模型也能够正确地执行一些推理步骤。这表明，大模型可能具备解决复杂问题所需的基本能力，但它们在将这些能力应用于实际问题时仍然存在一些挑战。

OlympicArena的测试还揭示了大模型的一些局限性。例如，研究团队发现，大模型在处理那些需要进行复杂推理的问题时表现不佳，尤其是在那些需要进行空间和几何推理的问题中。此外，大模型在处理那些需要进行抽象符号理解的问题时也存在一些困难。

论文地址：https://arxiv.org/pdf/2406.12753