ACL 2024：对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格-阿里云开发者社区

ACL 2024：对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

2024-08-06 72

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第6天】在ACL 2024会议上，研究人员提出GSM-Plus对抗性基准，旨在评估大型语言模型（LLMs）如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试，结果显示模型们虽能在标准GSM8K数据集上取得好成绩，但在遇到问题变异时表现欠佳，提示技术提升作用有限，揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。

在人工智能领域，大型语言模型（LLMs）在各种数学推理基准测试中取得了令人印象深刻的成绩。然而，关于这些模型是否真正理解和应用数学知识，还是仅仅依赖于数学推理的捷径，存在着越来越多的争议。为了评估LLMs在数学推理方面的鲁棒性，香港大学和腾讯AI实验室的研究人员引入了一种名为GSM-Plus的对抗性基准测试，该测试基于GSM8K数据集，并增加了各种数学扰动。

数学推理被认为是人工智能发展的关键指标之一，它要求对问题有深入的理解、策略的制定和计算能力的执行。LLMs在各种数学基准测试中表现出色，包括GSM8K、MATH和Theoremqa等。然而，研究人员对这些模型是否真正理解数学知识或仅仅基于表面模式解决问题提出了质疑。

为了评估LLMs在数学推理方面的鲁棒性，研究人员引入了GSM-Plus基准测试。该测试基于GSM8K数据集，并增加了各种数学扰动，以测试模型在面对问题变化时的应对能力。研究人员使用25个LLMs和4种提示技术进行了实验，结果显示，尽管LLMs在数学推理方面表现出不同的能力水平，但它们的性能远非鲁棒。

实验结果表明，LLMs在解决GSM8K问题时表现出色，但在解决GSM-Plus中的变异问题时却遇到了困难。具体来说，当问题中添加了新的陈述或目标被改变时，LLMs可能会犯错误。此外，研究人员还发现，现有的提示技术在提高模型的鲁棒性方面效果有限。

这项研究的主要贡献在于引入了GSM-Plus基准测试，该测试能够系统地评估LLMs在数学推理方面的鲁棒性。通过这个测试，研究人员揭示了LLMs在数学推理方面的局限性，并强调了提高模型鲁棒性的重要性。

尽管这项研究取得了重要的成果，但也存在一些局限性。首先，GSM-Plus基准测试只涵盖了有限的数学问题类型，可能无法全面评估LLMs的数学推理能力。其次，研究人员只使用了特定的提示技术，而没有探索其他可能提高模型鲁棒性的方法。

未来的研究方向可以包括扩展GSM-Plus基准测试以涵盖更广泛的数学问题类型，以及探索其他可能提高模型鲁棒性的技术，如知识蒸馏和模型压缩。此外，研究人员还可以探索如何将LLMs与其他类型的模型（如符号推理引擎）相结合，以进一步提高数学推理能力。

论文地址：https://arxiv.org/pdf/2402.19255

ACL 2024：对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

ACL 2024：对25个开闭源模型数学评测，GPT-3.5-Turbo才勉强及格

热门文章

最新文章

相关课程

相关电子书

相关实验场景