在人工智能(AI)领域,大模型的崛起为我们带来了前所未有的智能体验。这些大模型,如GPT-4和LLaMA,在各种任务上展示了令人惊叹的性能,从文本生成到图像识别,再到复杂的数学推理。然而,这些模型是否真的具备了与人类相当的智能呢?
最近,来自上海交大、上海人工智能实验室和Generative AI Research Lab(GAIR)的研究团队提出了一个名为OlympicArena的基准测试,旨在评估大模型在多学科认知推理任务上的能力。这个基准测试包含了来自七个学科(数学、物理、化学、生物学、地理学、天文学和计算机科学)的11,163个问题,涵盖了从高中到大学的各种难度级别。
在OlympicArena的测试中,研究团队发现,即使是最先进的大模型,如GPT-4,也只能达到39.97%的总体准确率。在数学和物理学这两个被认为对认知推理能力要求较高的学科中,GPT-4分别只能达到28.67%和29.71%的准确率。这表明,尽管大模型在许多任务上表现出色,但它们在处理复杂的、多学科的认知推理任务时仍然存在明显的局限性。
然而,OlympicArena的测试也揭示了大模型的一些潜力。例如,在过程级评估中,研究团队发现,即使是在那些最终答案错误的问题中,大模型也能够正确地执行一些推理步骤。这表明,大模型可能具备解决复杂问题所需的基本能力,但它们在将这些能力应用于实际问题时仍然存在一些挑战。
OlympicArena的测试还揭示了大模型的一些局限性。例如,研究团队发现,大模型在处理那些需要进行复杂推理的问题时表现不佳,尤其是在那些需要进行空间和几何推理的问题中。此外,大模型在处理那些需要进行抽象符号理解的问题时也存在一些困难。