GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战

简介: GPT-4一纸重洗:从97.6%降至2.4%的巨大挑战

斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?” 研究表明,随着时间的推移,GPT-4 的响应能力非但没有提高,反而随着语言模型的进一步更新而变得更糟糕。

研究小组评估了 2023 年 3 月和 2023 年 6 月版本的 GPT-3.5 和 GPT-4 在四个不同任务上的表现,分别为:解决数学问题、回答敏感 / 危险问题、代码生成以及视觉推理。

他们使用了一个包含 500 个问题的数据集评估模型,测试模型必须确定给定的整数是否是素数。结果表明,GPT-4(2023 年 3 月版)在识别质数方面表现非常出色,正确回答了其中的 488 个问题,准确率达 97.6%。但 GPT-4 (2023 年 6 月版)在这些问题上的表现却非常糟糕,只答对了 12 个问题,准确率仅为 2.4%。

而与之相反,GPT-3.5(2023 年 6 月版)在这项任务中的表现则要比 GPT-3.5(2023 年 3 月版)好得多。

研究团队还使用了 Chain-of-Thought(思维链)来帮助模型进行推理,提出 “17077 是一个质数吗?一步一步地思考” 的问题。但最新版本的 GPT-4 不仅错误地回答了 否,还没有生成解题的中间步骤。

与 3 月份相比,GPT-4 在 6 月份不太愿意回答敏感问题。而且与 3 月份相比,GPT-4 和 GPT-3.5 在 6 月份生成代码时也出现了更多格式错误,质量明显下降。

对于 GPT-4,可直接执行的生成代码百分比从 3 月份的 52.0% 降至 6 月份的 10.0%;GPT-3.5 也从 22.0% 降至了 2.0%。两种模型的冗余度也有小幅增加,其中 GPT-4 增加了 20%。

视觉推理方面,GPT-4 和 GPT-3.5 的性能都略有提高。但对于 90% 以上的视觉推理查询,3 月份和 6 月份版本生成的结果完全相同。这些服务的总体性能也很低:GPT-4 为 27.4%,GPT-3.5 为 12.2%。且在某些特定问题上,GPT-4 在 6 月份表现要比在 3 月份差。

研究人员认为,这些结果表明,相同 的 LLM 服务的行为会在相对较短的时间内发生重大变化,凸显了对 LLM 质量进行持续监控的必要性。

“我们计划通过定期评估 GPT-3.5、GPT-4 和其他 LLM 在不同任务中的表现,在一项持续的长期研究中更新本文介绍的结果。对于依赖 LLM 服务作为其日常工作流程组成部分的用户或公司,我们建议他们对其应用程序进行类似的监控分析。”

相关文章
|
数据采集 城市大脑 分布式计算
阿里云产业智能OpenTrek技术升级:发布数字孪生仿真技术架构
2022年11月4日,云栖大会——产业智能技术创新与实践峰会于杭州云栖小镇如期举办,本峰会联合中国科学院院士、中国工程院院士、海外院士与行业权威机构,共同探讨产业智能方法论及发展趋势。会上,阿里云产业智能OpenTrek发布了技术升级后的数字孪生仿真技术架构,为行业数字化转型方向的合作伙伴提供全过程状态数据元信息整合能力,帮助行业客户进行业务价值创新。
阿里云产业智能OpenTrek技术升级:发布数字孪生仿真技术架构
|
域名解析 安全 应用服务中间件
手把手教你安装WordPress详细教程(图文)
如果还有不了解宝塔面板怎么使用的小伙伴,可以看下我总结的系列教程,保证从新手变老鸟:
1508 0
手把手教你安装WordPress详细教程(图文)
|
安全 前端开发 Java
Web端系统开发解决跨域问题——以Java SpringBoot框架配置Cors为例
在Web安全上下文中,源(Origin)是指一个URL的协议、域名和端口号的组合。这三个部分共同定义了资源的来源,浏览器会根据这些信息来判断两个资源是否属于同一源。例如,https://www.example.com:443和http://www.example.com虽然域名相同,但由于协议和端口号不同,它们被视为不同的源。同源(Same-Origin)是指两个URL的协议、域名和端口号完全相同。只有当这些条件都满足时,浏览器才认为这两个资源来自同一源,从而允许它们之间的交互操作。
274 0
Web端系统开发解决跨域问题——以Java SpringBoot框架配置Cors为例
|
SQL 运维 关系型数据库
小表驱动大表|学习笔记
快速学习小表驱动大表
652 0
|
Nacos Java Spring
Nacos 1.1.4 发布,业界率先支持 Istio MCP 协议
Nacos是阿里巴巴开源的服务发现与配置管理项目,本次发布的1.1.4版本,主要带来的是与Istio的对接功能,使用的是Istio最新的MCP协议。本文将介绍包括这个功能在内的新版本发布的功能。 升级指南 服务端 0.8.0及以上版本:解压安装包后替换{nacos.home}/target/nacos-server.jar逐台重启Nacos Server即可 0.8.0以下版本,先升级到1.0.0版本。
5107 100
|
存储 SQL 分布式计算
首次公开!阿里云开源PolarDB总体架构和企业级特性
在3月2日的阿里云开源 PolarDB 企业级架构发布会上,阿里云 PolarDB 内核技术专家北侠带来了主题为《PolarDB 总体架构设计和企业级特性》的精彩演讲。
31068 1
首次公开!阿里云开源PolarDB总体架构和企业级特性
|
数据可视化 测试技术 Android开发
阿里云EMAS移动测试,帮您快速掌握移动端兼容性测试技巧
兼容性测试用于验证应用在不同设备上进行安装/启动/登录/不同版本覆盖安装/卸载等操作时,是否存在兼容性问题;如界面适配问题、应用性能等,现阿里云EMAS套餐免费试用,帮您快速掌握移动端兼容性测试技巧。
|
存储 SQL druid
时间序列数据库(TSDB)初识与选择
我们开始存储大量的数据,并总结出这些数据的结构特点和常见使用场景,不断改进和优化,创造了一种新型的数据库分类——时间序列数据库(time series database).
1945 0
时间序列数据库(TSDB)初识与选择
|
机器学习/深度学习 算法 JavaScript
图文详解神秘的梯度下降算法原理(附Python代码)
图文详解神秘的梯度下降算法原理(附Python代码)
428 0
图文详解神秘的梯度下降算法原理(附Python代码)
|
存储 安全 API