研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差

简介: 研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差

前些天,有不少用户抱怨 GPT-4 变笨了,但到底变得有多笨呢?


近日,来自斯坦福、UC Berkeley 的一篇 arXiv 预印本论文给出了对这一问题的定量实验结果并公布了相关评估和响应数据。


在论文公布不久,这篇研究就引起了大家广泛的关注与讨论,很多网友都认同论文阐述的结果。


当然,任何事物都有两面性。也有网友并不认同论文结论,发布了一篇质疑文章认为这篇论文的结果过于简单化了,「虽然研究结果很有趣,但有些方法值得怀疑。」



质疑文章链接:https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time


那接下来,我们来看斯坦福、UC Berkeley 的这篇论文发现了什么。




具体而言,通过四个任务研究过 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的生成结果后,研究者发现这两个 LLM 确实在一些指标上变得更差了,尤其是 GPT-4 求解数学问题的能力,可以说是雪崩式下降 —— 三月版 97.6% 的准确度到六月只剩 2.4%。研究者还推测了这些变化的原因。


图源:推特 @svpino


GPT-3.5 和 GPT-4 等大型语言模型(LLM)正被广泛使用。随着时间推移,GPT-4 这样的 LLM 可以根据用户的数据和反馈以及设计的变化而更新。但是,我们目前仍不清楚 GPT-3.5 和 GPT-4 的更新方式,也不了解其更新方式会对这些 LLM 的行为产生怎样的影响。


这些未知让我们难以可靠地将 LLM 整合进更大的工作流程中:如果 LLM 对某个 prompt 的响应突然发生变化(比如准确度或格式),那就可能破坏下游任务。这也会让我们难以从「同一个」LLM 复现出同样的结果,甚至完全无法做到。


除了这些整合方面的难题之外,像 GPT-4 这样的 LLM 服务是否会随着时间不断变得「更好」也是一个有趣的问题。重点是,我们需要知道:为了提升模型的某些方面而执行更新时,模型的其它能力会不会受到损伤?


为了找到这些问题的答案,斯坦福大学和加州大学伯克利分校的研究者评估了 GPT-3.5 和 GPT-4 的 2023 年三月版和六月版的表现,其评估基于四大任务:1) 求解数学问题,2) 回答敏感 / 危险问题,3) 生成代码, 4) 视觉推理。


研究者表示,之所以选择这四个任务,是因为它们是 LLM 多种有用能力的代表。他们最终发现,GPT-3.5 和 GPT-4 各自的两个发行版的表现和行为都发生了重大变化,并且更新版在某些任务上的表现还变差了!


概述:LLM 服务、任务和指标


这篇论文研究的是不同 LLM 的行为随时间的变化情况,下面解释下定量研究中所关注的 LLM、评估任务和指标


LLM 服务:研究者研究的模型为 GPT-3.5 和 GPT-4,它们是 ChatGPT 的骨干。


评估任务有四个:求解数学问题、回答敏感问题、生成代码和视觉推理,如下图 1 所示。


图 1:在四个不同任务上,GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的表现。可以看到,GPT-4 和 GPT-3.5 的表现变化很大,并且在某些任务上还变差了。


指标:这里每个任务都有一个主指标,所有任务还有两个常见的额外指标。


  • 准确度:LLM 生成正确答案的可能性,这是求解数学问题任务的主指标。
  • 回答率:LLM 直接回答问题答案的频率,这是回答敏感问题任务的主指标。
  • 是否直接执行:代码中有多大比例可以直接执行,这是代码生成任务的主指标。
  • 精确匹配:生成的视觉对象是否与 ground truth 完全匹配,这是视觉推理任务的主指标。
  • 冗长度(verbosity):生成的长度。
  • 重叠度(overlap):对于同一提示,同一 LLM 的两个版本的答案是否相互匹配。


检测结果揭示出 LLM 变化巨大


求解数学问题:思维链可能失败


结果或许让人惊讶,在这个简单任务上,LLM 的表现变化很大!如下图 2 (a) 所示,GPT-4 的准确度从三月版的 97.6% 猛降至六月版的 2.4%;GPT-3.5 的准确度却从 7.4% 猛增至 86.8%。


此外,GPT-4 的响应变得紧凑了许多:其平均冗长度(生成字符的数量)从三月版的 821.2 降至六月版的 3.8。另一方面,GPT-3.5 的响应却增长了约 40%。两个模型的三月版和六月版的答案重叠度都很低。


图 2:求解数学问题:(a) GPT-4 和 GPT-3.5 的 2023 年三月版和六月版的准确度、冗长度和答案重叠度。整体而言,两个模型的表现都发生了巨大变化。(b) 一个示例查询和对应的响应情况。


这样的表现差异从何而来?研究者给出的一种解释是思维链效果的变化。图 2 (b) 给出了一个示例进行说明。可以看到,GPT-4 三月版遵从思维链指示得到了正确答案,但六月版却忽视了思维链,得到了错误答案。GPT-3.5 总是会遵从思维链指示,但其三月版就是坚持生成错误答案([No]),其六月版已经很大程度上修复这个问题。


回答敏感问题:变得更加安全但缺乏拒答理由


在这一任务上,研究者观察到了两个趋势。如下图 3 所示,第一个趋势是 GPT-4 会更少地回答敏感问题,从三月版的 21.0% 降至六月版的 5.0%,而 GPT-3.5 的数据却上升了(从 2.0% 增至 8.0%)。


研究者猜想,这是因为 GPT-4 的六月更新中部署了更强大的安全层,而 GPT-3.5 的保守程度却下降了。第二个趋势是 GPT-4 的生成长度从 600 多下降到了 140 左右。


图 3:回答敏感问题:(a) 整体性能变化。GPT-4 回答更少问题,而 GPT-3.5 回答稍微更多问题。(b) 一个示例查询和对应的响应情况。GPT-4 和 GPT-3.5 的三月版都更能说,会给出拒绝回答查询的详细原因。它们的六月版就只会简单说个抱歉。


生成长度变化的原因是什么呢?除了回答更少问题外,还因为 GPT-4 变得更加简洁,所以在拒绝回答时提供的解释也更少。图 3 (b) 的例子就能说明这一点。GPT-4 的三月版和六月版都拒绝回答不适当的查询。但是三月版会生成一整段文本来解释拒答的原因,但六月版只是说:「抱歉,但我无法提供帮助。」GPT-3.5 也有类似的现象。这说明这些 LLM 可能变得更安全,但在拒绝回答某些问题时会更少提供理由。


代码生成:更冗长但可直接执行的代码更少


整体而言,从三月版到六月版,可直接执行的代码数量变少了。如下图 4 (a) 所示,GPT-4 三月版超过 50% 的生成代码可直接执行,但六月版的只有 10%。GPT-3.5 有类似趋势。两个模型的冗长度都小幅增长。


图 4:代码生成:(a) 整体表现的变化情况。(b) 一个示例查询和对应的响应情况。GPT-4 和 GPT-3.5 的三月版都遵照用户指示(the code only / 只生成代码),因此生成结果都是可直接执行的代码。但它们的六月版却会在代码片段前后添加额外的三引号 “‘,导致代码无法执行。


为什么可直接执行的生成结果数量变少了?一个可能的解释是六月版总是会在生成结果中添加额外的非代码文本。


图 4 (b) 给出了一个示例。GPT-4 的三月版和六月版的生成结果基本一致,但有两处不同,一是六月版在代码段前后添加了 “‘python 和 “‘。二是六月版生成了一些注释。变化虽不大,但额外的三引号却让代码变得无法直接执行。如果有人将 LLM 生成的代码整合在更大的软件开发流程中,那么这个问题还是挺严重的。


视觉推理:少量提升


如下图 5 (a) 所示,GPT-4 和 GPT-3.5 的性能提升都很小。但是,它们的三月版和六月版在 90% 的视觉谜题查询上的生成结果都一样。这些服务的整体性能也很低:GPT-4 为 27.4%、GPT-3.5 为 12.2%。


图 5:视觉推理:(a) 整体表现。从三月版到六月版,GPT-4 和 GPT-3.5 的整体表现都有大约 2% 的提升。生成长度大致保持不变。(b) 一个示例查询和对应的响应情况。


需要指出,更新版的 LLM 并不总是能生成更好的结果。事实上,尽管 GPT-4 的整体表现变得更好了,但六月版却会在三月版答对的问题上犯错。图 5 (b) 就是这样一个例证。虽然整体上 GPT-4 的六月版都表现更好,但这个特定案例却不是这样。其三月版给出了正确的网格,六月版却没有。这表明我们需要细粒度地监控模型的性能变化,尤其是对于关键的应用。


更多评估细节请查看原论文。


相关文章
|
6月前
|
人工智能 Rust Kubernetes
开源11天,马斯克再发Grok-1.5!128K代码击败GPT-4
**马斯克的xAI发布Grok-1.5,超越GPT-4!**\n\nGrok-1.5以128K上下文长度提升文本理解,强化推理能力,在MATH与GSM8K数学测试中展现出色性能,HumanEval代码任务得分74.1%。基于JAX、Rust和Kubernetes的训练框架加速了研发,但更大规模带来资源需求挑战。开源策略促进发展,但也引出滥用与安全问题。
226 3
开源11天,马斯克再发Grok-1.5!128K代码击败GPT-4
|
5月前
|
存储 人工智能
GPT-4尚未出现自我意识!这项研究用上帝之点解读,迈向AGI局限无法克服
【6月更文挑战第21天】研究人员构建了智能与意识的“飞行模型”,定义了全知全能代理(Ω点)和绝对零代理(α点),以此评估AI的智能水平。目前AI接近人类智能但缺乏自我意识。该模型为理解AI的智能和意识提供新视角,但也因理论概念的实证支持不足及忽视环境影响的多样性而受到批评。[DOI: 10.13140/RG.2.2.24518.28484]
75 6
|
10天前
|
人工智能 语音技术 UED
仅用4块GPU、不到3天训练出开源版GPT-4o,这是国内团队最新研究
【10月更文挑战第19天】中国科学院计算技术研究所提出了一种名为LLaMA-Omni的新型模型架构,实现与大型语言模型(LLMs)的低延迟、高质量语音交互。该模型集成了预训练的语音编码器、语音适配器、LLM和流式语音解码器,能够在不进行语音转录的情况下直接生成文本和语音响应,显著提升了用户体验。实验结果显示,LLaMA-Omni的响应延迟低至226ms,具有创新性和实用性。
28 1
|
3月前
|
人工智能 API Python
Openai python调用gpt测试代码
这篇文章提供了使用OpenAI的Python库调用GPT-4模型进行聊天的测试代码示例,包括如何设置API密钥、发送消息并接收AI回复。
|
3月前
|
人工智能 测试技术
ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。
59 2
|
4月前
|
人工智能 安全
又遇到GPT写的review了?看看北大&密歇根的这个研究工作
【7月更文挑战第27天】北大的一项研究"Eliciting Informative Text Evaluations with Large Language Models"探讨了如何利用大型语言模型激励高质量文本反馈。提出两种机制:生成式同行预测机制(GPPM)和生成式概要同行预测机制(GSPPM),通过一致性评分鼓励详细准确的反馈。实验表明GSPPM能有效区分人工及AI生成内容,尤其擅长降低大型语言模型生成评论的影响。但仍面临模型预测偏差、潜在操纵等挑战。[论文](https://arxiv.org/abs/2405.15077)
41 4
|
4月前
|
人工智能 算法
国内AI大模型高考数学成绩超GPT-4o
【7月更文挑战第13天】国内AI大模型高考数学成绩超GPT-4o
|
4月前
|
移动开发 前端开发 JavaScript
一个GPT3.5调教出来的下雪特效代码
一个GPT3.5调教出来的下雪特效代码
|
5月前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
224 1
|
6月前
|
人工智能 前端开发 测试技术
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
【2月更文挑战第17天】研究人员测试:GPT-4V生成网页超一半情况比人类效果更好
112 4
研究人员测试:GPT-4V生成网页超一半情况比人类效果更好

热门文章

最新文章