热点解读:大模型的突现能力和ChatGPT引爆的范式转变(2)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 热点解读:大模型的突现能力和ChatGPT引爆的范式转变

上下文学习是监督学习吗?

  • 坦白讲,我不确定。
  • 相似之处在于,上下文学习也需要像训练数据一样的示例
  • 不同之处在于,上下文学习的泛化行为并不同于监督学习,这使得之前的泛化理论(例如 Rademancher Complexity 或 Neural Tangent Kernel)均不适用。


上下文学习真的比监督学习效果要好吗?

  • 答案还未知。
  • 大多数提示词和精调的对比都只比了 提示词 + 大模型 vs 精调 + 小模型,但公平的对比应该是 提示词 + 大模型 vs 精调 + 大模型,且对比时的基座模型应该一样。所以在最初的思维链文章中,如果 Wei 等人要说明提示词好于精调,他们应该对比精调后的 PaLM,而不是 GPT3。
  • 我的假设是:精调可以提高分布内的性能,但会损害分布外的鲁棒性。提示词在分布转化的场景中表现更好,但在同分布场景下不如精调。
  • 如果假设是真的,那么一个值得研究的问题就是如何在不牺牲其上下文学习能力的情况下进行精调
  • 注意分布外精调的效果同样会随着模型尺寸变化。比如 Yang 等人在 2022 年的工作中,第四张表就显示,Bart-based 的分布外泛化能力会下降,但 Bart-large 则提升。对于大模型,当测试集的分布和训练集相差不大时,分布内的精调效果也应该会提升。


再回顾一下前文提到的的逻辑:如果精调更好,我们应该努力研究如何进行参数高效的优化;如果提示词更好,我们应该努力去训练更好的大型语言模型。

所以,尽管我们相信大型语言模型有巨大的潜力,仍然没有确凿的证据表明精调和提示词哪种方法更好,因此我们不确定范式是否真的应该转变、或应该转变到什么程度。仔细比较这两种范式,使我们对未来有一个清晰的认识,是非常有意义的。我们将更多讨论留到下一篇文章。

五、 模型应该多大才够?

两个数字:62B 和 175B。

  • 模型至少需要 62B,使思维链的效果才能大于标准的提示词方法。
  • 模型至少需要 175B(GPT3 的尺寸),思维链的效果才能大于精调小模型(T5 11B)的效果。


62B 这个数字来自于 Chung 等人 2022 年[31] 工作的第五张表:


对于所有小于 62B 的模型,直接用提示词都好于思维链。第一个用思维链更好的模型是 Flan-cont-PaLM 62B 在 BBH 上的结果。540B 的模型使用思维链会在更多任务上得到好的效果,但也不是全部任务都好于精调。另外,理想的尺寸可以小于 540B,在 Suzgun 等人 2022 年[32]的工作中,作者展示了 175B 的 InstructGPT 和 175B 的 Codex 使用思维链都好于直接用提示词。综合以上结果,我们得到了 63B 和 175B 两个数字。所以,如果想要参与这场游戏,首先要有一个大于平均尺寸的模型。

不过,还有其他大型模型在思维链下的表现差了很多,甚至不能学到思维链,比如 OPT、BLOOM 和 GPT-3 的第一个版本。他们的尺寸都是 175B。这就引出了我们下一个要讨论的问题。

六、 规模是唯一的因素吗?

不是。

规模是一个必要但不充分的因素。有些模型足够大(比如 OPT 和 BLOOM,都是 175B),但并不能做思维链。

有两种模型[33] 可以做思维链:

  • GPT3 系列的模型,包括 text-davinci-002 和 code-davinci-002 (Codex)。这是仅有的两个具有强大突现能力并可公开访问的模型
  • 除了以上两个模型,其他 GPT3 模型,包括原来的 GPT3,text-davinci-001,以及其他更小的 GPT-3 模型,都不能做思维链。
  • 当说 “能做思维链” 时,我们是指使用思维链方法的效果比直接用提示词、精调 T5-11B 效果更好。
  • 另外要注意的是,code-davinci-002 在语言任务上的性能始终优于[34] text-davinci-002。这个观察非常有趣且耐人寻味。这表明基于代码数据训练的语言模型可以胜过根据语言训练的语言模型。目前为止我们还不知道是为什么。
  • PaLM 系列模型,包括 PaLM、U-PaLM、Flan-PaLM 和 Minerva。这些模型目前还未开放访问(此处 @谷歌,快开源吧)。


为什么会有突现能力目前还不清楚,但我们找出了一下可能产生突现能力的因素:

  • 指令精调:GPT-3 text-davinci-002 就是用指令 + 强化学习[35] 精调的产物。在这之前,text-davinci-001 做思维链的效果并不好。同时 PaLM[36] 在经过指令精调后[37]的效果也有提升。
  • 在代码上精调:Codex code-davinci-002 是在代码上进行精调的,它的效果持续好于 text-davinci-002。PaLM 也在代码上进行了调整。从表面上看,代码与语言关系不大,但似乎起了很大作用,我们会在之后的文章进行讨论。
  • 用思维链精调:在 text-davinci-002 发布时,谷歌已经发布 PaLM 3 个月了。所以 OpenAI 应该看到了思维链相关的工作。还有一些工作[38] 表明,直接用思维链数据进行精调可以激发模型的思维链能力。


然而,所有这些因素在现阶段都是推测。揭示如何训练才能让模型产生突现能力是非常有意义的,我们将更多讨论留到下一篇文章

七、总结 Conclusion

在本文中,我们仔细研究了语言模型的突现能力。我们强调了复杂推理、知识推理和分布外鲁棒性的重要性和其中存在的机会。突现能力是非常令人兴奋的,因为它们可以超越比例定律,并在比例曲线中表现出相变。我们详细讨论了研究范式是否会真的从精调转向上下文学习,但我们目前还没有确切答案,因为精调和上下文学习在分布内、分布外场景下的效果仍有待对比。最后,我们讨论了产生突现能力的三个潜在因素:指令精调、代码精调和思维链精调。非常欢迎大家提出建议和讨论。另外我们还提到了两个尚未讨论的有趣问题:

  • 我们是否能公平对比精调和上下文学习的效果?
  • 我们是如何训练大模型,才能让模型具备突现能力、思维链能力?


对于这两个问题,我们会在之后的文章中进行讨论。

中英对照表


注:

[1] https://www.jasonwei.net/blog/emergencehttps://www.yitay.net/blog/emergence-and-scaling[2] Wei et. al. 2022. Chain of Thought Prompting Elicits Reasoning in Large Language Models [3] https://lingo.csail.mit.edu/blog/arithmetic_gpt3/[4] Wei et. al. 2022. Emergent Abilities of Large Language Models [5] 截止到 2022 年 11 月,仍没有严格的证据表明这些能力存在于小模型 [6] 在 2022 年 11 月,在 text-davinci-002 上评估 GSM8K 测试集需要 $50 [7] Google 不提供对 PaLM 的公共访问;OpenAI 不允许一些国家的研究人员访问 GPT3 和 Codex(截至 2022 年 11 月) [8] GPT-3 的第一个版本(2020 年 5 月)在许多任务上无法胜过精调 T5 [9]  Wei et. al. 2022. Emergent Abilities of Large Language Models. [10] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems [11]  GPT3 一直在持续更新。最新版本 text-davinci-002 现在与 2020 年的原始版本有很大不同。 [12] Wei et. al. 2022. Chain of Thought Prompting Elicits Reasoning in Large Language Models [13] Wang et. al. 2022. Self-Consistency Improves Chain of Thought Reasoning in Language Models [14]  Fu et. al. 2022. Complexity-Based Prompting for Multi-step Reasoning [15]  目前还没有能公平对比提示词和微调的工作。但当思维链被提出的时候,尽管他们对于提示和精调的比较可能是不公平的,但它们比精调效果要好。 [16] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models [17] Lewkowycz et. al. 2022. Minerva: Solving Quantitative Reasoning Problems with Language Models [18]  Jiang et. al. 2022. Draft, Sketch, and Prove: Guiding Formal Theorem Provers with Informal Proofs [19] Xu et. al. 2021. Fusing Context Into Knowledge Graph for Commonsense Question Answering [20] Khashabi et. al. 2020. UnifiedQA: Crossing Format Boundaries With a Single QA System [21] Yu et. al. 2022. Generate rather than Retrieve: Large Language Models are Strong Context Generators [22] Jung et. al. 2022. Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations [23]  虽然这些知识可能过时或者不可信,但选择哪种可信知识源超出了本文的讨论范围 [24] Si et. al. 2022. Prompting GPT-3 to be Reliable. [25] Fu et. al. 2022. Complexity-based Prompting for Multi-Step Reasoning [26] Kaplan et. al. 2020. Scaling Laws for Neural Language Models [27] Brown et. al. 2020. anguage Models are Few-Shot Learners. [28] Cobbe et. al. 2021. Training Verifiers to Solve Math Word Problems [29] Li and Liang. 2021. Prefix-Tuning: Optimizing Continuous Prompts for Generation [30] He et. al. 2021. Towards a Unified View of Parameter-Efficient Transfer Learning [31] Chung et. al. 2022. Scaling Instruction-Finetuned Language Models [32]  Suzgun et. al. 2022. Challenging BIG-Bench tasks and whether chain-of-thought can solve them [33]  在本文发布的两个月之后,更多的模型被公布,很多新的模型也都可以做思维链,比如 UL2, FlanT5 [34]  Suzgun. et. al. 2022. Challenging Big-Bench tasks and whether chain-of-thought can solve them Fu et. al. 2022. Complexity-Based Prompting for Multi-Step Reasoning Madaan et. al. 2022. Language Models of Code are Few-Shot Commonsense Learners [35]  Ouyang et. al. 2022. Training language models to follow instructions with human feedback [36]  Chowdhery et. al. 2022. PaLM: Scaling Language Modeling with Pathways [37]  Chung. et. al. 2022. Scaling Instruction-Finetuned Language Models [38]  Chung. et. al. 2022. Scaling Instruction-Finetuned Language Models Huang et. al. 2022. Large Language Models Can Self-Improv

相关文章
|
2月前
|
存储 人工智能 自然语言处理
RAG:增强大模型知识库的新范式
RAG:增强大模型知识库的新范式
465 99
|
2月前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
379 12
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
53_多模态LLM:图像理解的新范式
在人工智能技术快速发展的今天,单一模态的语言模型已经无法满足日益复杂的应用需求。2025年,多模态大型语言模型(MLLM)的崛起标志着AI技术进入了一个新的发展阶段,特别是在图像理解与文本生成的结合方面取得了突破性进展。本文将深入剖析多模态LLM的技术原理、架构设计、性能评估及实际应用案例,探讨视觉-语言融合技术如何重塑AI应用的边界,以及在未来发展中面临的挑战与机遇。
|
机器学习/深度学习 人工智能 自然语言处理
清华EconAgent获ACL 2024杰出论文:大模型智能体革新计算经济学研究范式
近年来,人工智能的迅猛发展推动了数据驱动建模在宏观经济学领域的应用。清华大学研究团队提出的EconAgent模型,基于大型语言模型,具备类似人类的决策能力,能更准确地模拟个体行为对宏观经济系统的影响。EconAgent在个体异质性、市场动态及宏观经济因素模拟方面表现出色,并具有更好的可解释性和灵活性。然而,其高计算复杂度和部分决策过程的不透明性仍需进一步解决。该成果已在ACL 2024会议上获得杰出论文奖。论文链接:https://arxiv.org/abs/2310.10436v4
409 3
|
9月前
|
存储 人工智能 关系型数据库
HiveChat:告别模型选择困难!开源ChatGPT聚合神器上线:一键切换10+模型,权限管控全免费
HiveChat 是一款专为中小团队设计的开源 AI 聊天应用,支持多种主流 AI 模型,提供高效的团队沟通和智能辅助功能。
306 9
HiveChat:告别模型选择困难!开源ChatGPT聚合神器上线:一键切换10+模型,权限管控全免费
|
9月前
|
人工智能 自动驾驶 数据可视化
D1net阅闻 | ChatGPT支持所有用户使用搜索功能之时,谷歌也开放了最强模型
D1net阅闻 | ChatGPT支持所有用户使用搜索功能之时,谷歌也开放了最强模型
|
11月前
|
人工智能 自然语言处理
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
RWKV-7是RWKV系列的最新大模型架构版本,具有强大的上下文学习能力,超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理及其在多语言处理、文本生成等领域的应用场景。
658 7
RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式
|
11月前
|
人工智能 自然语言处理 机器人
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
OpenAI推出具有图像上传和分析功能的完整o1模型,并首次推出ChatGPT Pro
|
12月前
|
机器学习/深度学习 人工智能 测试技术
DeepSeek新作Janus:解耦视觉编码,引领多模态理解与生成统一新范式
DeepSeek-AI团队提出的Janus框架,通过解耦视觉编码,实现了多模态理解与生成的统一。该框架在多模态理解和生成任务上均表现出色,尤其在MMBench、SEED-Bench等多个基准测试中取得领先结果。Janus的设计提高了任务灵活性和可扩展性,但也面临计算成本和训练数据需求的挑战。
386 8
|
机器学习/深度学习 人工智能 自然语言处理
【AI大模型】ChatGPT模型原理介绍(下)
【AI大模型】ChatGPT模型原理介绍(下)

热门文章

最新文章