ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格

简介: 【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。

在人工智能领域,大型语言模型(LLMs)在各种数学推理基准测试中取得了令人印象深刻的成绩。然而,关于这些模型是否真正理解和应用数学知识,还是仅仅依赖于数学推理的捷径,存在着越来越多的争议。为了评估LLMs在数学推理方面的鲁棒性,香港大学和腾讯AI实验室的研究人员引入了一种名为GSM-Plus的对抗性基准测试,该测试基于GSM8K数据集,并增加了各种数学扰动。

数学推理被认为是人工智能发展的关键指标之一,它要求对问题有深入的理解、策略的制定和计算能力的执行。LLMs在各种数学基准测试中表现出色,包括GSM8K、MATH和Theoremqa等。然而,研究人员对这些模型是否真正理解数学知识或仅仅基于表面模式解决问题提出了质疑。

为了评估LLMs在数学推理方面的鲁棒性,研究人员引入了GSM-Plus基准测试。该测试基于GSM8K数据集,并增加了各种数学扰动,以测试模型在面对问题变化时的应对能力。研究人员使用25个LLMs和4种提示技术进行了实验,结果显示,尽管LLMs在数学推理方面表现出不同的能力水平,但它们的性能远非鲁棒。

实验结果表明,LLMs在解决GSM8K问题时表现出色,但在解决GSM-Plus中的变异问题时却遇到了困难。具体来说,当问题中添加了新的陈述或目标被改变时,LLMs可能会犯错误。此外,研究人员还发现,现有的提示技术在提高模型的鲁棒性方面效果有限。

这项研究的主要贡献在于引入了GSM-Plus基准测试,该测试能够系统地评估LLMs在数学推理方面的鲁棒性。通过这个测试,研究人员揭示了LLMs在数学推理方面的局限性,并强调了提高模型鲁棒性的重要性。

尽管这项研究取得了重要的成果,但也存在一些局限性。首先,GSM-Plus基准测试只涵盖了有限的数学问题类型,可能无法全面评估LLMs的数学推理能力。其次,研究人员只使用了特定的提示技术,而没有探索其他可能提高模型鲁棒性的方法。

未来的研究方向可以包括扩展GSM-Plus基准测试以涵盖更广泛的数学问题类型,以及探索其他可能提高模型鲁棒性的技术,如知识蒸馏和模型压缩。此外,研究人员还可以探索如何将LLMs与其他类型的模型(如符号推理引擎)相结合,以进一步提高数学推理能力。

论文地址:https://arxiv.org/pdf/2402.19255

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
650 2
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
567 17
|
11月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
664 4
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
718 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
10月前
|
SQL 存储 人工智能
|
人工智能 搜索推荐 开发者
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题,覆盖影视、科技、艺术等九大领域,其最新Deep Research模型以51.5%准确率展现复杂信息整合能力,为AI代理的浏览能力评估建立新标准。
977 4
GPT-4o测评准确率竟不到1%!BrowseComp:OpenAI开源AI代理评测新基准,1266道高难度网络检索问题
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
958 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
1136 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈