四、text-davinci-003 和 ChatGPT,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的威力
在当前阶段(2022 年 12 月), text-davinci-002、text-davinci-003 和 ChatGPT之间几乎没有严格的统计上的比较 ,主要是因为
- text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月。
- ChatGPT 不能通过 OpenAI API 被调用,所以想要在标准基准上测试它很麻烦。
所以在这些模型之间的比较更多是基于研究社区的集体经验 (统计上不是很严格)。不过,我们相信初步的描述性比较仍然可以揭示模型的机制。
我们首先注意到以下 text-davinci-002,text-davinci-003 和 ChatGPT 之间的比较:
- 所有三个模型都经过指令微调 。
- text-davinci-002 是一个经过监督学习指令微调 (supervised instruction tuning) 的模型
- text-davinci-003 和 ChatGPT 是基于人类反馈的强化学习的指令微调 (Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。这是它们之间最显着的区别。
这意味着大多数新模型的行为都是 RLHF 的产物 。
那么让我们看看 RLHF 触发的能力:
- 翔实的回应 :text-davinci-003 的生成通常比 text-davinci-002长。ChatGPT 的回应则更加冗长,以至于用户必须明确要求“用一句话回答我”,才能得到更加简洁的回答。这是 RLHF 的直接产物。
- 公正的回应 :ChatGPT 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答。这也是RLHF的产物。
- 拒绝不当问题 :这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分。
- 拒绝其知识范围之外的问题 :例如,拒绝在2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过)。这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内。
有两件事情值得注意:
- 所有的能力都是模型本来就有的, 而不是通过RLHF 注入的 。RLHF 的作用是触发 / 解锁突现能力 。这个论点主要来自于数据量大小的比较:因为与预训练的数据量相比,RLHF 占用的计算量 / 数据量要少得多。
- 模型知道它不知道什么不是通过编写规则来实现的, 而是通过RLHF解锁的。这是一个非常令人惊讶的发现,因为 RLHF 的最初目标是让模型生成复合人类期望的回答,这更多是让模型生成安全的句子,而不是让模型知道它不知道的内容。
幕后发生的事情可能是:
- ChatGPT: 通过牺牲上下文学习 的能力换取建模对话历史 的能力。这是一个基于经验的观测结果,因为 ChatGPT 似乎不像 text-davinci-003 那样受到上下文演示的强烈影响。
- text-davinci-003:恢复了 text-davinci-002 所牺牲的上下文学习能力 , 提高零样本的能力 。我们不确定这是否也是 RLHF 或其他东西的副产品。根据instructGPT的论文,这是来自于强化学习调整阶段混入了语言建模的目标(而不是 RLHF 本身)。
五、总结当前阶段 GPT-3.5 的进化历程
到目前为止,我们已经仔细检查了沿着进化树出现的所有能力,下表总结了演化路径:
我们可以得出结论:
- 语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练(
davinci
) - 存储大量知识的能力来自 1750 亿的参数量。
- 遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量(
Davinci-instruct-beta
) - 执行复杂推理的能力很可能来自于代码训练(
code-davinci-002
) - 生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说:
- 如果是监督学习版,得到的模型是
text-davinci-002
- 如果是强化学习版 (RLHF) ,得到的模型是
text-davinci-003
- 无论是有监督还是 RLHF ,模型在很多任务的性能都无法超过 code-davinci-002 ,这种因为对齐而造成性能衰退的现象叫做对齐税。
- 对话能力也来自于 RLHF(
ChatGPT
),具体来说它牺牲了上下文学习的能力,来换取:
- 建模对话历史
- 增加对话信息量
- 拒绝模型知识范围之外的问题
六、GPT-3.5 目前不能做什么
虽然GPT-3.5是自然语言处理研究中的重要一步,但它并没有完全包含许多研究人员(包括 AI2)设想的所有理想属性。以下是GPT-3.5不具备的某些重要属性:
- 实时改写模型的信念 :当模型表达对某事的信念时,如果该信念是错误的,我们可能很难纠正它:
- 我最近遇到的一个例子是:ChatGPT 坚持认为 3599 是一个质数,尽管它承认 3599 = 59 * 61。另外,请参阅Reddit上关于游得最快的海洋哺乳动物的例子。
- 然而,模型信念的强度似乎存在不同的层次。一个例子是即使我告诉它达斯·维达(星球大战电影中的人物)赢得了2020年大选,模型依旧会认为美国现任总统是拜登。但是如果我将选举年份改为 2024 年,它就会认为总统是达斯·维达是 2026 年的总统。
- 形式推理 :GPT-3.5系列不能在数学或一阶逻辑等形式严格的系统中进行推理:
- 一个例子是严格的数学证明,要求中间步骤中不能跳,不能模糊,不能错。
- 但这种严格推理到底是应该让语言模型做还是让符号系统做还有待讨论。一个例子是,与其努力让 GPT 做三位数加法,不如直接调 Python。
- 生成如何做豆腐脑的方法。做豆腐脑的时候,中间很多步骤模糊一点是可以接受的,比如到底是做咸的还是做甜的。只要整体步骤大致正确,做出来的豆腐脑儿就能吃。
- 数学定理的证明思路。证明思路是用语言表达的非正式的逐步解法,其中每一步的严格推导可以不用太具体。证明思路经常被用到数学教学:只要老师给一个大致正确的整体步骤,学生就可以大概明白。然后老师把具体的证明细节作为作业布置给学生,答案略。
- 在自然语言处理的文献中, “推理” 一词的定义很多时候不太明确。但如果我们从模糊性的角度来看,例如一些问题 (a) 非常模棱两可,没有推理;(b) 有点儿逻辑在里面,但有些地方也可以模糊;(c) 非常严谨,不能有任何歧义。那么,
- 模型可以很好地进行 (b) 类的带模糊性的推理,例子有:
- GPT-3.5 不能进行类型 (c) 的推理(推理不能容忍歧义)。
- 从互联网进行检索 :GPT-3.5 系列(暂时)不能直接搜索互联网
- 模型的内部知识总是在某个时间被切断。模型始终需要最新的知识来回答最新的问题。
- 回想一下,我们已经讨论过 1750 亿的参数大量用于存储知识。如果我们可以将知识卸载到模型之外,那么模型参数可能会大大减少,最终它甚至可以在手机上运行(疯狂的想法,但 ChatGPT 已经足够科幻了,谁知道未来会怎样呢).
- 但是有一篇 WebGPT 论文发表于2021年12月,里面就让 GPT 调用了搜索引擎。所以检索的能力已经在 OpenAI 内部进行了测试。
- 这里需要区分的一点是,GPT-3.5 的两个重要但不同的能力是 知识 和 推理 。一般来说,如果我们能够 将知识部分卸载到外部的检索系统,让语言模型只专注于推理,这就很不错了。 因为:
七、结论
在这篇博文中,我们仔细检查了GPT-3.5系列的能力范围,并追溯了它们所有突现能力的来源。初代GPT-3模型通过预训练获得生成能力、世界知识和in-context learning。然后通过instruction tuning的模型分支获得了遵循指令和能泛化到没有见过的任务的能力。经过代码训练的分支模型则获得了代码理解的能力,作为代码训练的副产品,模型同时潜在地获得了复杂推理的能力。结合这两个分支,code-davinci-002似乎是具有所有强大能力的最强GPT-3.5模型。接下来通过有监督的instruction tuning和 RLHF通过牺牲模型能力换取与人类对齐,即对齐税。RLHF 使模型能够生成更翔实和公正的答案,同时拒绝其知识范围之外的问题。
我们希望这篇文章能够帮助提供一个清晰的GPT评估图,并引发一些关于语言模型、instruction tuning和code tuning的讨论。最重要的是, 我们希望这篇文章可以作为在开源社区内复现GPT-3.5的路线图。
“因为山就在那里。”——乔治·马洛里,珠穆朗玛峰探险先驱
常见问题
- 这篇文章中的这些说法更像是假设 (hypothesis) 还是结论 (conclusion)?
- 复杂推理的能力来自于代码训练 是我们倾向于相信的假设
- 对没有见过的任务泛化能力来自大规模指令学习 是至少 4 篇论文的结论
- GPT-3.5来自于其他大型基础模型,而不是1750亿参数的GPT-3 是有根据的猜测。
- 所有这些能力都已经存在了,通过instruction tuning,无论是有监督学习或强化学习的方式来解锁而不是注入这些能力 是一个强有力的假设,强到你不敢不信。主要是因为instruction tuning数据量比预训练数据量少了几个数量级
- 结论 = 许多证据支持这些说法的正确性;假设 = 有正面证据但不够有力;有根据的猜测 = 没有确凿的证据,但某些因素会指向这个方向
- 为什么其他模型(如 OPT 和 BLOOM)没有那么强大?
- OPT大概是因为训练过程太不稳定
- BLOOM的情况则未知。如果您有更多意见,请与我联系
附录 - 中英术语对照表
英文 | 中文 | 释义 |
Emergent Ability | 突现能力 | 小模型没有,只在模型大到一定程度才会出现的能力 |
Prompt | 提示词 | 把 prompt 输入给大模型,大模型给出 completion |
In-Context Learning | 上下文学习 | 在 prompt 里面写几个例子,模型就可以照着这些例子做生成 |
Instruction Tuning | 指令微调 | 用 instruction 来 fine-tune 大模型 |
Code Tuning | 在代码上微调 | 用代码来 fine-tune 大模型 |
Reinforcement Learning with Human Feedback (RLHF) | 基于人类反馈的强化学习 | 让人给模型生成的结果打分,用人打的分来调整模型 |
Chain-of-Thought | 思维链 | 在写 prompt 的时候,不仅给出结果,还要一步一步地写结果是怎么推出来的 |
Scaling Laws | 缩放法则 | 模型的效果的线性增长要求模型的大小指数增长 |
Alignment | 与人类对齐 | 让机器生成复合人类期望的,复合人类价值观的句子 |