六、GPT-3.5 目前不能做什么
虽然GPT-3.5是自然语言处理研究中的重要一步,但它并没有完全包含许多研究人员(包括 AI2)设想的所有理想属性。以下是GPT-3.5不具备的某些重要属性:
- 实时改写模型的信念:当模型表达对某事的信念时,如果该信念是错误的,我们可能很难纠正它:
- 我最近遇到的一个例子是:ChatGPT 坚持认为 3599 是一个质数,尽管它承认 3599 = 59 * 61。另外,请参阅Reddit上关于游得最快的海洋哺乳动物的例子。
- 然而,模型信念的强度似乎存在不同的层次。一个例子是即使我告诉它达斯·维达(星球大战电影中的人物)赢得了2020年大选,模型依旧会认为美国现任总统是拜登。但是如果我将选举年份改为 2024 年,它就会认为总统是达斯·维达是 2026 年的总统。
- 形式推理:GPT-3.5系列不能在数学或一阶逻辑等形式严格的系统中进行推理:
- 在自然语言处理的文献中,「推理」一词的定义很多时候不太明确。但如果我们从模糊性的角度来看,例如一些问题 (a) 非常模棱两可,没有推理;(b) 有点儿逻辑在里面,但有些地方也可以模糊;(c) 非常严谨,不能有任何歧义。
- 那么,模型可以很好地进行 (b) 类的带模糊性的推理,例子有:
- 生成如何做豆腐脑的方法。做豆腐脑的时候,中间很多步骤模糊一点是可以接受的,比如到底是做咸的还是做甜的。只要整体步骤大致正确,做出来的豆腐脑儿就能吃。
- 数学定理的证明思路。证明思路是用语言表达的非正式的逐步解法,其中每一步的严格推导可以不用太具体。证明思路经常被用到数学教学:只要老师给一个大致正确的整体步骤,学生就可以大概明白。然后老师把具体的证明细节作为作业布置给学生,答案略。
- GPT-3.5 不能进行类型 (c) 的推理(推理不能容忍歧义)。
- 一个例子是严格的数学证明,要求中间步骤中不能跳,不能模糊,不能错。
- 但这种严格推理到底是应该让语言模型做还是让符号系统做还有待讨论。一个例子是,与其努力让 GPT 做三位数加法,不如直接调 Python。
- 从互联网进行检索:GPT-3.5 系列(暂时)不能直接搜索互联网。
- 但是有一篇 WebGPT 论文发表于2021年12月,里面就让 GPT 调用了搜索引擎。所以检索的能力已经在 OpenAI 内部进行了测试。
- 这里需要区分的一点是,GPT-3.5 的两个重要但不同的能力是 知识 和 推理。一般来说,如果我们能够 将知识部分卸载到外部的检索系统,让语言模型只专注于推理,这就很不错了。因为:
- 模型的内部知识总是在某个时间被切断。模型始终需要最新的知识来回答最新的问题。
- 回想一下,我们已经讨论过 1750 亿的参数大量用于存储知识。如果我们可以将知识卸载到模型之外,那么模型参数可能会大大减少,最终它甚至可以在手机上运行(疯狂的想法,但 ChatGPT 已经足够科幻了,谁知道未来会怎样呢)。
七、结论
在这篇博文中,我们仔细检查了GPT-3.5系列的能力范围,并追溯了它们所有突现能力的来源。
初代GPT-3模型通过预训练获得生成能力、世界知识和in-context learning。然后通过instruction tuning的模型分支获得了遵循指令和能泛化到没有见过的任务的能力。经过代码训练的分支模型则获得了代码理解的能力,作为代码训练的副产品,模型同时潜在地获得了复杂推理的能力。
结合这两个分支,code-davinci-002似乎是具有所有强大能力的最强GPT-3.5模型。接下来通过有监督的instruction tuning和 RLHF通过牺牲模型能力换取与人类对齐,即对齐税。RLHF 使模型能够生成更翔实和公正的答案,同时拒绝其知识范围之外的问题。
我们希望这篇文章能够帮助提供一个清晰的GPT评估图,并引发一些关于语言模型、instruction tuning和code tuning的讨论。最重要的是, 我们希望这篇文章可以作为在开源社区内复现GPT-3.5的路线图。
常见问题
- 这篇文章中的这些说法更像是假设 (hypothesis) 还是结论 (conclusion)?
- 复杂推理的能力来自于代码训练是我们倾向于相信的假设。
- 对没有见过的任务泛化能力来自大规模指令学习 是至少 4 篇论文的结论。
- GPT-3.5来自于其他大型基础模型,而不是1750亿参数的GPT-3 是有根据的猜测。
- 所有这些能力都已经存在了,通过instruction tuning,无论是有监督学习或强化学习的方式来解锁而不是注入这些能力 是一个强有力的假设,强到你不敢不信。主要是因为instruction tuning数据量比预训练数据量少了几个数量级。
- 结论 = 许多证据支持这些说法的正确性;假设 = 有正面证据但不够有力;有根据的猜测 = 没有确凿的证据,但某些因素会指向这个方向
- 为什么其他模型(如 OPT 和 BLOOM)没有那么强大?
- OPT大概是因为训练过程太不稳定。
- BLOOM的情况则未知。
原文链接:https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756