为什么国产大模型都说超越ChatGPT而体验却很拉?警惕 Goodhart's law 陷阱

简介: 今天逛的时候看到一篇很有意思的文章,也是解答了我这段时间来使用国产大模型的一些疑惑,当然,我并没有具体指明是哪一家大模型的情况,只是认为目前大部分国产大模型带给人的综合体验感确实不如GPT3.5。如果你也有同感,那么请你一定要认真地看完这篇文章。本文转载至微信公众号:真知浩见 ,链接:https://mp.weixin.qq.com/s/QeRQX8Z-1RsDO15xL2ydgw ,一篇很棒的科普文。

最近不少国产大模型声称,他们的表现甚至超越了业界知名的ChatGPT模型。然而,在实际应用中,这些国产大模型的综合表现往往还是逊色于ChatGPT。

这背后,其实隐藏了一个经济学家查尔斯·古德哈特(Charles Goodhart)所提出的 Goodhart's Law 陷阱。

起初他们说超越 GPT-3.5,大家已经见怪不怪,例如:

image.png

后来,竟然有人说「GPT-4相比毫不逊色」,且也学起来GPT-4进行收费了。

image.png

他们凭什么这么说呢?

除了跟 「GPT-4 相比毫不逊色」这个是空口白话之外,其他的国产大模型,都拿出了证据。那就是他们在三大测试集上与ChatGPT的对比:分别是 C-Eval, mmLU, AGIEval。

  • C-Eval 是由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集
  • MMLU 是Hendrycks et al 2020年在论文 "Measuring Massive Multitask Language Understanding" 中提出的,它旨在评估语言模型在广泛的知识领域和任务类型上的理解能力。
  • AGIEval 是微软的一个华人研究团队发布了一项基准测试 ,这项基准测试专门用于对基础模型的类人能力做准确考察(涵盖高考、法学入学考试、数学竞赛和律师资格考试等

用这些测试集来评价大模型的表现,就相当于是「开卷考试」,题目都是公开的。这时候,各家大模型就可以针对这些模型,进行专门的训练,就可能会出现在测试集上表现很好,但可能在现实世界的其他应用场景中表现不尽人意。表现出来,就是用户在实际使用中,感觉其跟ChatGPT还差得远。

这其实就是落入了Goodhart's law 的陷阱。

Goodhart's Law 最初由英国经济学家查尔斯·古德哈特(Charles Goodhart)提出。该法则的基本内容是:「当某个指标成为目标时,它就不再是一个好的指标。」 这意味着,当人们开始直接优化某一指标以达成某一目标时,该指标就会失去作为评价实际表现的准确性

当这三个测试集成为衡量大模型表现的指标时,就会出现专门为了得高分而做的各种技术性调整,但这些调整可能背离了提升大模型能力的初衷。

智能研究院副院长兼总工程师林咏华(对话智源林咏华:有些大模型的评测基准已经失去意义)在一个访谈中就对当前的打榜做了如下评价:

到现在确实仍然没有一个被公认的测评集,但至少C-Eval、MMLU以及CMMLU,这几个类似的测评集已经有点被各个模型过度训练。

所以,时至今日观察大模型能力时,我建议大家不用过度关注这几个测试集的评分。另外,我一直觉得,如果模型为了拉这些榜单的分数而去训练的话,容易损失模型在之后的一些能力的。

Goodhart's Law 在现实生活中有非常多的表现。因为一旦某个指标被用作目标,人们可能会找到实现这一目标的“捷径”,而忽视了最初使用该指标的真正意图。

例如,哥伦比亚大学为了提升学校排名而出现的作弊事件。

2022年,哥伦比亚大学被爆出在提交给《美国新闻与世界报道》(U.S. News & World Report) 的排名数据中作弊,这影响了它在2022年国家大学排名中的位置。

这个问题是一个现实世界中的Goodhart's Law例子,因为它体现了当学校过分关注排名(一个被优化的指标)时,可能会忽视教育质量(实际目标)并导致不诚实的行为。

具体来说,哥伦比亚大学在报告其教师资源、研究活动和学生情况等信息时存在不准确之处。报道称,一些关键指标被高估,包括全职教师比例、教师薪资和学生入学时的成绩等。当这些数据被用于计算大学排名时,它们可能不真实地反映了学校的实际情况。

再以用户体验行业为例。用户体验行业经常使用的一个指标就是 NPS,即净推荐指数(0-10分的推荐意愿打分题)。当公司都在想着优化 NPS 时,各种作弊行为也出现了。

比如汽车4S店的销售员,一般都会跟你说,接到回访电话时要选10分,不然他就要被扣工资。

比如一些场景的数据收集,相关人员会站在那里看着你填,很多人就不好意思打低分。

这两种情景,都使得NPS分数失去了他本来的意义,没有反映出真实情况。

怎样避免陷入Goodhart陷阱呢? 关键在于确保指标的使用不会成为目标本身,保持指标的多元性和平衡,以及持续的检验和调整。以下是一些策略:

  • 多元化指标:不要只依赖单一指标来衡量成功。使用一系列相关的指标可以更全面地反映情况。
  • 定性与定量相结合:除了定量的数据指标外,还应包括定性分析,比如用户访谈、案例研究,以获取更全面的了解。
  • 过程指标与结果指标结合:监控中间过程的指标和最终结果的指标,可以帮助确保目标的实现是通过健康的过程,而非操纵或游戏规则。
  • 动态调整指标:定期评估和调整指标体系,确保它们依然有效地衡量想要关注的行为或性能。

这些措施也适用于用户研究经常做的体验度量模型,都是通过选取指标来衡量系统表现、促进系统优化。

通过这些方法的组合使用,可以在一定程度上抑制Goodhart's Law的负面影响,帮助组织更真实、更有效地追求其长期目标。

对于这些大模型而言,关注真正能提升大模型能力的多元指标,而不是为了提升分数而训练,才会真正带来全面能力的提升。

期待看到国产大模型在体感上真正超越 ChatGPT 的一天。

相关文章
|
4天前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
2月前
|
机器学习/深度学习 人工智能 并行计算
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
DeepSpeed Chat 是一款革命性的平台,专为简化和加速类ChatGPT模型的训练而设计。通过一键式脚本,用户可以轻松完成从预训练模型到生成自定义ChatGPT模型的全过程。该系统复刻了InstructGPT的RLHF训练方法,并集成了一系列优化技术,如DeepSpeed Hybrid Engine,大幅提升了训练效率和经济性。使用DeepSpeed Chat,即使是拥有数千亿参数的大模型,也能在短时间内完成训练,且成本显著降低。无论是单GPU还是多GPU集群环境,DeepSpeed Chat都能提供卓越的性能和易用性,让RLHF训练变得更加普及。
DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍
|
3月前
|
数据采集 自然语言处理 监控
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
正是通过微调大模型使得GPT3成为了可以聊天发布指令的ChatGPT。聊天大模型在通用大模型的基础上加一层微调就实现人人能用的大模型,使得通用大模型的能力被更多人使用和了解。
65 4
大模型微调使GPT3成为了可以聊天发布指令的ChatGPT
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(下)
【AI大模型】ChatGPT模型原理介绍(下)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(上)
【AI大模型】ChatGPT模型原理介绍(上)
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
让非算法同学也能了解 ChatGPT 等相关大模型
|
4月前
|
人工智能 分布式计算 自然语言处理
ChatGPT 等相关大模型问题之建设一个prompt平台来提升业务效率如何解决
ChatGPT 等相关大模型问题之建设一个prompt平台来提升业务效率如何解决
|
4月前
|
自然语言处理 数据挖掘 BI
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
ChatGPT 等相关大模型问题之将现有的数据分析平台与大模型结合如何解决
|
4月前
|
人工智能 开发者 芯片
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
使用AI大语言模型编写 单片机程序. 使用的是 OpenAI公司发布的 ChatGPT .在ChatGPT上有别人训练好的 单片机工程师 with Keil uVision 5 - C Code Explainer模型, 可以上传电路图改模型可以通过这个用户所给的电路图进行编程.
472 0
【51单片机】单片机开发者的福音: 让AI看电路图帮你编写程序(使用ChatGPT 中训练好的单片机工程师模型)
|
3月前
|
存储 Linux API
物理地址模型 【ChatGPT】
物理地址模型 【ChatGPT】

热门文章

最新文章