ChatGPT 背后的技术路线问题

简介: ChatGPT 背后的技术路线问题

OpenAI 一路从 GPT 到 GPT3 再到 ChatGPT,其不停摸索的技术路线,早已不是 大规模预训练语言模型 可以简单概括,而是通往 AGI 所需的 NLP 到底是什么样的。


由于 GPTx 的使用限制,制约了我们对其应有的关注。这对于仍停留在 BERT 时代的我们,是值得警醒的。


进化之路

模型

发布时间

参数量

预训练数据量

GPT-1

2018年6月

117 M

5GB

GPT-2

2019年2月

1.5 B

40GB

GPT-3

2022年5月

175 B

570+ GB

InstructGPT

2022年3月


_


_

(数据来源于 引用1-3)


GPT-1


背景

  • pretrain+finetune 的风潮(基于 LSTM 结构的 ULMFiT【Universal Language Model Fine-tuning for Text Classification】)
  • Transformer 相对 LSTM/CNN 的优异表现


核心路线

pretrain + finetune


模型&数据&训练

  • 模型基于 transformer 结构,layer-12 head-12 hidden-768 embedding=4H
  • 数据使用 BooksCorpus,规模 5GB
  • pretrain
  • 自左向右的生成式语言模型
  • finetune
  • 区别于 BERT,GPT-1 在预训练时没有 CLS 和 SEP,只有单句;对于具体下游任务,需增加 START/DELIM 和 EXTRACT,其 token embedding 在 finetune 时随机初始化
  • 基于 EXTRACT embedding 经 MLP 进行下游任务的 loss 计算
  • finetune 的 loss 不仅包含下游任务的 loss,还包含输入文本的 LM loss
  • image.pngGPT-2


背景

  • 越来越多工作聚焦在仅 pretrain 不 finetune,来减轻标注数据收集的压力,即 few-shot、zero-shot
  • multi-task learning 和 meta-task learning 算是较有希望的方向
  • multi-task learning 和 meta-task learning 往往圈定一个 task 集合,在 LM 类 PTM 方面,会将建模 p(out|in) 转化为建模 p(out|in,task),来显式/加速捕捉 task 信息,如 MQAN【The Natural Language Decathlon: Multitask Learning as Question Answering】使用 task-specific pattern 来拼接 in,task 进行训练和预测
  • GPT-2 认为“任何有监督任务都是语言模型的一个子集,当模型的容量非常大且数据量足够丰富时,仅仅靠训练语言模型的学习便可以完成其他有监督学习的任务”,故坚持在自然文本上直接建模 p(out|in) ,虽然学习慢很多,但形式更通用


核心路线

基于 GPT-1,扩大模型规模,提升模型容量,实现无监督的隐式的 multi-task learning 效果


模型&数据&训练

  • 模型结构继承 GPT-1,在 transformer 的结构上有微调,size 最大的:layer-48 head-12 hidden-1600 embedding=4H
  • vocab size 从 GPT-1 的 40000 扩大到 50257
  • 数据采用了网页内容 WebText,规模 40GB


评价&思考

  • 从效果来看,在文本摘要任务上媲美有监督模型,在法译英任务上超越所有无监督但比有监督差,初步显现了潜力,但大多任务上 zero-shot learning 效果仍大幅落后于有监督


GPT-3


背景

  • 越来越多工作【Pretrained Transformers Improve Out-of-Distribution Robustness】表明,在 pretrain+finetune 范式中,当 model 拟合在 downstream-task trainset 后,往往丧失了对 downstream-task OOD 的泛化能力
  • 由于 trainset 不可能收集整个真实分布,随着时间变化预测数据的分布也可能变化,因此 model 需要具备 OOD 的能力,属于已有类别的能归类,不属于的能拒判
  • 通过构造 OOD 测试集,对比 IID 上的表现,有一些实验结论
  • 传统 NN 衰减很大,甚至只有 30%,而 PTM 衰减很小
  • 更大 size 的 PTM,并不一定表现更好(CV 上是越大越好,NLP 上不是)
  • PTM 使用的训练数据的规模越大、多样性越强,表现越好
  • 蒸馏后衰减会很大
  • 20-21 年开始,meta-learning 领域中 in-context learning 逐渐兴起


in-context learning

  • in-context learning 的核心思想是,在 meta-learning 中引入 multi-task learning 的模式,从而让模型基于少量训练样本来提取任务的语义信息,并以此来预测最终输出
  • 以 MetaICL【MetaICL: Learning to Learn In Context】为例,
  • image.png
  • 一些工作【Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?】对 in-context learning 的有效性进行了实验分析
  • 模型并没有学习输入和标签之间的对应关系:训练时随机变更 x_i 的 y_i,没影响
  • 模型学到了输入和标签的分布:对 x_i 或 y_i 部分token用随机token替换,均有负面影响
  • 但增加前缀输入(样例),来激活大模型语言表达建模能力,也算是一种 learning


核心路线

  • 在 GPT-2 基础上,大幅扩大模型规模,提升模型容量
  • 预测时引入 in-context learning 思路,处理 few-shot、one-shot 问题(训练时没有)


模型&数据&训练

  • 模型结构继承 GPT-2,size 最大的:layer-96 head-96 hidden-12288 embedding=4H
  • 数据在 WebText 基础上,加入了 Book、Wikipedia 等数据,根据质量赋权使用,共计 45TB
  • 训练依然是 bigger model -> larger batch-size -> smaller learning-rate
  • 在验证 few-shot one-shot 效果时,GPT-3 并没有真的使用这些数据进行 finetune,而是相当于 zero-shot 直接预测验证效果


评价&思考

  • GPT-3 在一些 task 上甚至超过了有监督 SOTA,从效果看,确实验证了“更大的模型的通用泛化效果”
  • image.png
  • image.png
  • 但在文本生成上仍会在长篇幅上出现重复、矛盾、突兀的问题,缺乏物理常识,由于单向 LM 建模的问题在需要反复阅读上下文的 MRC 任务上也会差一些
  • PAPER 中列举了一些更宏观的 limitation,也对应现在 PTM 方向的 limitation,很有意思,可延伸阅读


InstructGPT


背景

  • GPT-3 所生成内容的 untruthful、unhelpful、toxic 问题,受到社会和学术关注
  • 最初用在 Atari games 的 RLHF(reinforcement learning from human feed-back),自 19 年开始,逐步应用到 NLP 的各项 task 上


核心路线

image.png模型&数据&训练

  • Demonstration dataset -> SFT model
  • prompt 的概念区别于 prompt learning,这里表示我们和 ChatGPT 交互时的键入,有各种任务形式,包括 Generation、QA、Chat、MRC、Summarization、Classification 等
  • prompt 库由 user 键入和 labeler 撰写构建,会做一些采样处理,保证丰富度
  • 给定 prompt,labeler 撰写 response,形成 input-output 的生成式数据,约 1.2W 规模,用于 GPT-3 supervised finetune
  • Comparison dataset -> RM
  • 给定一个 prompt,由模型生成 K 个 response,标注人员标注分档,形成 C_K^2 个 comparison pair,约 3.3W * C_K^2 规模,用于 reward model 的学习
  • 一组 C_K^2 样本,shuffle 到 epoch 中,有泄露倾向,训练时很快就会过拟合,应在一个 batch 内使用
  • loss 就简单用了个 -log(delta(score1 - score2))
  • labeler 在标注 ranking list 前,会对每个 response 标注一些 meta label,即整体分数(1-7)、是否回应了 task、是否色情、是否暴力等等,但在训练中貌似没有体现应用?
  • PPO model
  • 3.1W 规模,具体见后面章节


评价&思考

  • 从结论来看,对现有大规模 PTM 通过 SFT+PPO 进行 alignment 到 user intention 的思路,比继续提升模型规模要高效的多:SFT 和 PPO 的训练消耗是 GPT-3 pretrain 的千分之一,在百分之一规模的 GPT-3 上就能达到 GPT-3 的效果(1.3B V.S. 1175B)
  • image.png
  • RL 在 NLP 中应用越来越多,而且取得了不错的效果,这里单独拎出来讨论下


Deep Reinforcement Learning from Human Preferences


背景

  • RL 的应用往往需要一个具体定义的 reward function,但许多真实任务的目标较复杂,难以清晰定义,即无法将 user intent 和 RL system 进行 align
  • 对于 expert user,可以提供 demonstration,使用 inverse RL 抽取出 reward function,如 imitation learning 等方法
  • 对于 non-expert user,只能定性的对 system behavior 提供 feedback,来表明 intent,系统从中学习 reward function,这里关注该方式
  • 关于 user feedback,显然 comparison 是更容易操作的,实验也证明这对于学习 user intent 已足够


核心路线


image.png

(图片来源于 引用6)

  • policy
  • 一旦有了 reward function,就是一个传统 RL 问题了,可以使用任意 RL 算法
  • 考虑到这里的 reward function 可能是 non-stationary 的,使用 policy gradient 类方法更合适,本文处理 Atari games 使用的 A2C
  • reward function
  • 训练数据
  • human feedback 形成 comparison dataset (a1, a2, label),label ∈ {1, 2, equal}(实际上本文 label 是个 {1,2} 上的分布)
  • 标注数据,需要 online 持续进行,会用上一轮的 reward function 预测,筛选差异较大的 hard pair
  • 目标函数


image.png


references(部分)

  1. Universal Language Model Fine-tuning for Text Classification:https://arxiv.org/abs/1801.06146
  2. Language Models are Unsupervised Multitask Learners:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
  3. Language Models are Few-Shot Learners:https://arxiv.org/abs/2005.14165
  4. MetaICL: Learning to Learn In Contex:https://arxiv.org/abs/2110.15943
  5. Training language models to follow instructions with human feedback:https://arxiv.org/abs/2203.02155
  6. Deep Reinforcement Learning from Human Preferences:https://arxiv.org/abs/1706.03741

相关文章
|
机器学习/深度学习 数据采集 人工智能
国内“谁”能实现chatgpt,短期穷出的类ChatGPT简评(算法侧角度为主),以及对MOSS、ChatYuan给出简评,一文带你深入了解宏观技术路线。
国内“谁”能实现chatgpt,短期穷出的类ChatGPT简评(算法侧角度为主),以及对MOSS、ChatYuan给出简评,一文带你深入了解宏观技术路线。
国内“谁”能实现chatgpt,短期穷出的类ChatGPT简评(算法侧角度为主),以及对MOSS、ChatYuan给出简评,一文带你深入了解宏观技术路线。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
从ChatGPT到文心一言:AI为什么能“懂人话”?——大语言模型的底层逻辑揭秘
567 9
|
7月前
|
传感器 存储 人工智能
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
本文由AI产品专家三桥君探讨了AI从被动响应到主动决策的演进路径,重点分析了函数调用和RAG技术在构建AI Agent中的关键作用。文章梳理了大模型能力的迭代(原生能力与涌现能力),技术演进的三个阶段(提示工程→函数调用→RAG),并提出AI Agent需具备环境感知、推理决策和行动执行的核心要素。AI产品专家三桥君认为,未来AGI需突破跨领域学习、实时更新和安全性挑战,最终实现如"贾维斯"般的智能伙伴。
239 1
ChatGPT让AI展现‘智能’魅力,函数调用和RAG如何助力迈向AI Agent?
|
12月前
|
人工智能 Linux API
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
Omnitool 是一款开源的 AI 桌面环境,支持本地运行,提供统一交互界面,快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台,具备高度扩展性。
1276 94
Omnitool:开发者桌面革命!开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台,本地运行不联网
|
7月前
|
机器学习/深度学习 人工智能 文字识别
浏览器AI模型插件下载,支持chatgpt、claude、grok、gemini、DeepSeek等顶尖AI模型!
极客侧边栏是一款浏览器插件,集成ChatGPT、Claude、Grok、Gemini等全球顶尖AI模型,支持网页提问、文档分析、图片生成、智能截图、内容总结等功能。无需切换页面,办公写作效率倍增。内置书签云同步与智能整理功能,管理更高效。跨平台使用,安全便捷,是AI时代必备工具!
536 8
|
机器学习/深度学习 人工智能 搜索推荐
哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率高达96%
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
505 101
|
11月前
|
人工智能 编解码 运维
当ChatGPT能写情书、Sora会造电影:我们必须掌握的AI内容识别技能
随着AI技术迅猛发展,AI生成内容在文学、新闻、绘画等领域广泛应用,但其真假难辨、质量参差不齐,可能带来信息误导、知识产权侵犯及安全风险等问题。学会识别AI生成内容至关重要,包括通过逻辑漏洞排查、语言风格分析、生物特征异常检测等手段审核文本、图片和视频。人工审核在面对高隐蔽性内容时仍不可替代,需结合工具与上下文理解共同筑起防护屏障。守护真实信息、规避风险,是每个人在AI时代应尽的责任。
311 7
|
12月前
|
存储 人工智能 API
ChatGPT-on-WeChat:Star32.4k, DeepSeek加持!这款开源神器秒变AI助手,聊天体验直接起飞!
嗨,大家好,我是小华同学。今天为大家介绍一款结合DeepSeek引擎的开源项目——ChatGPT-on-WeChat,由开发者zhayujie打造。它将微信变成智能AI助手,支持文本、图片、语音对话,具备定时提醒、天气查询等扩展功能,完全开源且易于定制。项目地址:https://github.com/zhayujie/chatgpt-on-wechat。关注我们,获取更多优质开源项目和高效学习方法。
1289 11
|
12月前
|
人工智能 自然语言处理 算法
DeepSeek vs ChatGPT:AI对决中的赢家是……人类吗?
DeepSeek VS ChatGPT:DeepSeek以开源黑马姿态崛起,凭借低成本、高性能的「DeepSeek-V3」和专为深度推理设计的「DeepSeek-R1」,成为中小开发者的首选。而ChatGPT则较贵。 然而,AI依赖也带来隐忧,长期使用可能导致记忆衰退和“脑雾”现象。为此,推荐Neuriva解决方案,专注力提升30%,记忆留存率提升2.1倍,助力人类在AI时代保持脑力巅峰。 DeepSeek赢在技术普惠,ChatGPT胜于生态构建,人类的关键在于平衡AI与脑力健康,实现“双核驱动”突破极限!
1168 7
|
人工智能 搜索推荐 iOS开发
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合
OpenAI推出适用于iPhone的ChatGPT,与Apple实现具有里程碑意义的AI整合