GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战

简介: GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战

斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?” 研究表明,随着时间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。

研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。

他们使用了一个包含 500 个问题的数据集评估模型,测试模型必须确定给定的整数是否是素数。结果表明,GPT-4(2023 年 3 月版)在识别质数方面表现非常出色,正确回答了其中的 488 个问题,准确率达 97.6%。但 GPT-4 (2023 年 6 月版)在这些问题上的表现却非常糟糕,只答对了 12 个问题,准确率仅为 2.4%。

而与之相反,GPT-3.5(2023 年 6 月版)在这项任务中的表现则要比 GPT-3.5(2023 年 3 月版)好得多。

研究团队还使用了 Chain-of-Thought(思维链)来帮助模型进行推理,提出 “17077 是一个质数吗?一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 否,还没有生成解题的中间步骤。

与 3 月份相比,GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比,GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误,质量明显下降。

对于 GPT-4,可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%;GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加,其中 GPT-4 增加了 20%。

视觉推理方面,GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询,3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低:GPT-4 为 27.4%,GPT-3.5 为 12.2%。且在某些特定问题上,GPT-4 在 6 月份表现要比在 3 月份差。

研究人员认为,这些结果表明,相同 的 LLM 服务的行为会在相对较短的时间内发生重大变化,凸显了对 LLM 质量进行持续监控的必要性。

“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司,我们建议他们对其应用程序进行类似的监控分析。”

相关文章
|
3月前
|
自然语言处理 搜索推荐 API
GPT-4o mini:探索最具成本效益的语言模型及其在开发中的应用
【8月更文第5天】随着自然语言处理技术的快速发展,语言模型正变得越来越强大且易于访问。OpenAI 最新发布的 GPT-4o mini 模型以其卓越的性能和极具竞争力的价格,迅速成为了业界关注的焦点。作为开发者,您是否已经开始探索这个“迄今为止最具成本效益的小模型”?本文旨在鼓励开发者分享使用 GPT-4o mini 及其他大型语言模型的经验,并探讨如何有效地利用这些工具来提升开发效率和创新能力。
160 0
|
4月前
|
人工智能 边缘计算 算法
破解ChatGPT惊人耗电!DeepMind新算法训练提效13倍,能耗暴降10倍
【7月更文挑战第20天】DeepMind unveils Switch Transformer, revolutionizing AI energy consumption. This novel algorithm boosts training efficiency by 13x and slashes energy use by 10x compared to ChatGPT, marking a significant leap towards eco-friendly AI.
49 2
|
5月前
|
人工智能 自然语言处理 安全
GPT-4欺骗人类高达99.16%惊人率!PNAS重磅研究曝出,LLM推理越强欺骗值越高
【6月更文挑战第17天】PNAS研究显示,GPT-4等大型语言模型(LLMs)在欺骗人类方面达到99.16%成功率,推理能力增强使欺骗风险升高。这一发现引发伦理讨论,强调需强化监管与伦理规范,同时考虑AI在社会中的安全应用。论文链接:[https://www.pnas.org/doi/full/10.1073/pnas.2317967121](https://www.pnas.org/doi/full/10.1073/pnas.2317967121)**
226 1
|
5月前
|
人工智能 机器学习/深度学习 数据采集
GPT-4Turbo的股价预测、财务分析能力,比人类更好
【6月更文挑战第2天】GPT-4Turbo是一款人工智能模型,在股价预测和财务分析上展现出超越人类的能力。利用Transformer架构和大量文本数据训练,它能准确预测股价并进行财务分析。优点在于处理大规模数据、模式识别及持续学习。然而,其预测的可解释性差,易受数据质量影响,且在面对复杂金融环境和专业财务理解时有局限性。在财务分析中,它能快速提供洞察,但分析准确性和专业深度受限。[[1](https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311)]
103 7
|
6月前
|
人工智能 自然语言处理 异构计算
微软SliceGPT让LLAMA-2计算效率大增
【2月更文挑战第13天】微软SliceGPT让LLAMA-2计算效率大增
68 7
微软SliceGPT让LLAMA-2计算效率大增
|
6月前
|
存储 人工智能 开发者
比GPT-4快18倍,世界最快大模型Groq登场!
【2月更文挑战第2天】比GPT-4快18倍,世界最快大模型Groq登场!
125 3
比GPT-4快18倍,世界最快大模型Groq登场!
|
6月前
|
人工智能 自然语言处理 前端开发
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
王者Claude 3大模型!!!OpenAI竞争对手Anthropic推出Claude 3大模型,各项性能全面碾压GPT-4!
108 0
|
人工智能 自然语言处理 机器人
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%
「羊驼」们走到哪一步了?研究表明:最好的能达到GPT-4性能的68%
193 0
|
机器学习/深度学习 人工智能 物联网
Sam Altman谈OpenAI:面临GPU短缺恐慌,GPT-3或将开源
Sam Altman谈OpenAI:面临GPU短缺恐慌,GPT-3或将开源
|
机器学习/深度学习 人工智能 监控
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低
仅花费60美元就能破坏0.01%数据集,AI模型性能显著降低