大模型强化学习扫盲：PPO、GRPO、DPO，哪个才是你的“AI教练”？-阿里云开发者社区

从“学走路”到“给目标”，三大主流技术如何塑造模型的“思考能力”

大家好，我是AI技术博主maoku。今天，我们来拆解一个听起来很高深、但实际决定了大模型“智商上限”的技术——强化学习。

别怕，我们不谈复杂公式，也不追溯学术历史。今天的目标很纯粹：让你在15分钟内，真正理解当前大模型领域最主流的三种强化学习技术——PPO、GRPO和DPO——的核心思想、区别以及它们如何让模型变得更聪明。

一、引言：为什么大模型需要“强化学习”？SFT不够好吗？

让我们从一个根本问题开始：我们已经有了监督微调（SFT），它能教模型模仿人类的优秀回答，为什么还需要强化学习？

想象一下教一个孩子：

SFT（监督微调） 就像是：手把手教他临摹字帖。你给他看1000个“优秀答案”的范本，他通过模仿，能写出很像样的字。但他的天花板，最多就是那本字帖的水平。这是一种“过程模仿”，学到了“形”，但未必能创造超越范本的“神”。
RL（强化学习） 则像是：只告诉他“赢得这场比赛”。至于他是通过练习跑步、改进装备还是研究策略来获胜，靠他自己探索。这给了他超越教练原始知识、解决未知问题的可能性。这是一种“目标驱动”的学习，旨在激发模型的内在推理和泛化能力。

2025年，DeepSeek R1的横空出世，彻底刷新了行业的认知。它证明了，强化学习不仅可以用来给模型“套缰绳”（确保安全无害），更能作为核心引擎，驱动模型“智力”的涌现，甚至在某些方面替代传统的SFT。 大模型的下半场，竞争的核心不再是“谁背的语料多”，而是“谁的学习机制更聪明”。

二、技术原理：三大主流流派，三种培养哲学

流派一：PPO（近端策略优化）—— “精英学院”的严苛培养

PPO是大模型RLHF（基于人类反馈的强化学习）的奠基性技术，它构建了一套精密而复杂的“教学评估体系”。

核心比喻：一所拥有“三堂会审”制度的精英学院。

学生（Actor Model）：我们要训练的主力模型。
训练数据：只有问题（Query），没有标准答案。例如：“如何解释引力波？” 模型必须自己独立思考并生成答案。

关键的“三位一体”评委团：

Reward 模型（RM）- “客观阅卷官”：
- 职责：对模型生成的每一个答案，给出一个绝对的分数（如0-100分）。
- 特点：必须绝对公正。它通常由另一个AI（如GPT-4）担任，或通过大量人类偏好数据训练而成。答案“北京”得高分，答案“上海”得零分。
Critic 模型（价值模型）- “私人心理教练”：
- 这是PPO最精妙也最难理解的部分。既然有了阅卷官，为什么还需要教练？
- 核心问题：分数会“欺骗”学生。做“1+1=2”得100分，做一道复杂的微积分题可能只得60分。学生会想：“那我以后只挑简单题做就好了！”这不利于挑战难题。
- 教练的作用：Critic模型会评估题目本身的预期难度和学生的当前水平。对于“1+1”，它预期学生就该拿100分，实际拿了100分，优势（Advantage）为0，没有额外奖励。对于微积分题，它预期学生只能拿10分，结果学生拿了60分，优势高达+50！这会获得巨大奖励。
- 本质：Critic的作用是消除题目难度差异带来的评分偏差，鼓励模型勇于挑战并超越自我预期。
Reference 模型 - “初心紧箍咒”：
- 这是SFT阶段训练好的模型的一个冻结副本，参数不更新。
- 职责：防止模型“耍小聪明”（Reward Hacking）。有时模型会发现，输出一堆乱码、无关信息或极端冗长的内容，反而能骗过Reward模型拿到高分。Reference模型就像一面镜子，时刻提醒学生：“看看你原来的正常样子！”如果当前生成的答案与Reference模型的输出概率分布偏离太远，就会受到惩罚，防止模型行为“跑偏”。

PPO总结：学生在“客观打分”、“因材施教”和“不忘初心”的三重监督下，每一步更新都小心翼翼（“近端”优化），稳步变强。代价是计算成本极高，需要同时加载和交互Actor、Critic、Reward、Reference四个模型，对显存是巨大考验。

流派二：GRPO（组相对策略优化）—— DeepSeek的“群体赛马”哲学

如果说PPO是资源密集的精英教育，那么GRPO（以DeepSeek R1为代表）则像是一场高效的“内部竞赛”或“素质教育”。

核心比喻：一场内部“创意大赛”或“小组头脑风暴”。

关键创新：裁掉了“私人教练”（Critic模型）。这一下子省去了近一半的核心显存开销，是技术上的大胆简化。
如何评估“优势”？：GRPO采用了一种巧妙的“群体基线”法。
1. 组内竞争：对于同一个问题，让模型一次性并行生成多个（例如4个或8个）不同的答案。
2. 规则评分：针对数学、代码等有明确对错的任务，使用规则函数（如答案是否正确、代码能否运行通过）为每个答案打分（如对=1分，错=0分）。这取代了需要训练的Reward模型，更客观、成本更低。
3. 计算相对优势：计算这个小组答案的平均分。某个答案的得分如果高于平均分，它就是“优等生”，获得正向奖励；低于平均分，则是“待改进生”，获得负向惩罚。

神奇的副作用：涌现“思维链”
这种“生多个孩子，让它们内部竞争”的机制，产生了一个意想不到的效果：模型自发地学会了“逐步推理”。
模型在试错中发现，对于复杂问题，直接蒙答案很难成为小组里的“优等生”；但如果把思考步骤一步步写出来（生成思维链CoT），得出正确答案的概率和稳定性就大大提升，从而更容易获得高分奖励。
这种深度思考的能力，不是被“教”出来的，而是被GRPO的赛制环境“逼”出来的。 （注：这种并行生成仅发生在训练阶段，上线推理时模型仍是单次生成，不影响速度）。

流派三：DPO（直接偏好优化）—— 极简主义的“品味”塑造

PPO和GRPO都绕不开“评分”环节（无论是RM评分还是规则评分）。DPO则提出了一个更极简、更优雅的思路：我们能不能连“打分”都省了？

核心比喻：一位“品味鉴赏家”的养成。

训练数据：不是问题和单一答案，而是问题 + 一对对比答案：一个人类标注者偏好的答案（Chosen），和一个不偏好的答案（Rejected）。例如：
- Query：“介绍你自己。”
- Chosen：“你好，我是DeepSeek，一个乐于助人的AI助手。”
- Rejected：“我是AI。”
核心目标：DPO不要求模型绝对提高对好答案的生成概率，而是极致地拉大“好答案”与“坏答案”在模型眼中的差距。
一个反直觉的例子：
- 训练前，模型对好答案“北京”的生成概率是99%，对坏答案“上海”的概率是1%。
- 训练后，模型对“北京”的概率可能降到了70%，但对“上海”的概率骤降到0.0001%。
- 这算训练失败了吗？不！这正是DPO的成功。好坏答案之间的概率差距从98个百分点拉大到了近70个百分点，模型现在无比确信“上海”是糟糕的选择，即使它对“北京”的绝对信心有所波动。

DPO总结：它绕过复杂的奖励建模，直接基于人类偏好进行优化。训练极其稳定，显存占用小（通常只涉及一个主模型），特别擅长精细化调整模型的风格、语气、安全性和对话品味，但不太适合解决数学、代码等有绝对对错的任务。

三、实践指南：如何为你的任务选择“对的教练”？

理解了原理，我们面临一个实际选择：我的项目该用哪种技术？

1. 评估任务类型：

有明确对错的任务（数学、代码、事实问答）：GRPO 是耀眼的新星。它利用规则函数，客观高效，还能激发推理能力。PPO也可行，但需要训练或调用一个强大的Reward模型，成本更高。
偏好性、风格性任务（对话友好度、安全性、内容风格、文章润色）：DPO 是首选。它的训练数据（好坏对比对）直接对应人类主观偏好，训练流程简单稳定，效果显著。
复杂综合任务，且资源充足：经典的 PPO 体系仍然是一个非常强大和全面的框架，尤其在需要精细控制训练稳定性时。

2. 评估资源约束：

计算资源（显存）有限：优先考虑 DPO，其次是 GRPO。PPO对显存要求最高。
数据准备成本：DPO需要大量高质量的对比偏好数据；PPO需要训练Reward模型的数据或调用昂贵大模型API；GRPO（在规则可定义时）的数据成本可能最低。
工程复杂度：PPO最复杂，GRPO次之，DPO相对最简单。对于想快速实验的团队，可以优先尝试DPO或利用一些集成化框架。如今，【LLaMA-Factory Online】等平台已经开始集成这些先进的训练算法，能大大降低工程门槛。

一个简单的决策流程参考：

我的任务目标是什么？
├── 如果是提升“主观品味”（安全、风格） → 选用 **DPO**
├── 如果是提升“客观能力”（解题、编码） → 选用 **GRPO**（如果规则可定义）
└── 如果资源充足，追求综合性能 → 可考虑 **PPO**

四、效果评估：如何判断你的“AI教练”教得好？

训练完成后，如何评估强化学习的效果？

1. 针对核心目标的评估：

对于GRPO/PPO（能力提升）：
- 在基准测试集上的成绩：如数学（MATH）、代码（HumanEval）的通过率是否显著提升。
- 思维链质量：生成的推理步骤是否逻辑更清晰、更完整。
对于DPO（偏好对齐）：
- 人工偏好评测：将微调前后的模型输出匿名混排，让人类标注者选择他们更偏好的回答，计算胜率。
- 安全性测试：使用专门的“红队测试”提示集，检验模型对有害请求的拒绝率是否提高。
- 风格一致性：检查模型的回答是否更符合预期的语气（如更专业、更亲切）。

2. 通用能力保留评估：
这是所有强化学习都需要警惕的“对齐税”。必须检查：模型在变得“更聪明”或“更安全”的同时，其通用的语言理解、写作、常识问答等基础能力是否出现了严重退化。可以在MMLU、C-Eval等综合基准上进行测试。

3. 避免“奖励黑客”现象：
观察模型输出是否有奇怪的模式，如总是以特定短语开头、结尾，或生成无意义的冗长内容。这可能是模型找到了奖励系统的漏洞。Reference Model（在PPO中）和DPO的对比损失设计，都是为了缓解这一问题。

五、总结与展望

让我们为今天的“AI教练”之旅做个总结：

PPO 像一位配备全职教练团的严师，体系完备，监督严密，但培养成本极高。
GRPO 像一位组织小组竞赛的引导者，通过内部竞争激发潜能，效率高且能催生“思维链”等高级能力，特别适合有明确规则的任务。
DPO 像一位品味鉴赏家，通过直接对比“好”与“坏”来塑造模型的判断力，简单、稳定、高效，是调整模型风格与安全性的利器。

技术演进的趋势越来越清晰：从复杂走向简洁，从依赖外部奖励走向激发内部竞争或直接对齐人类偏好。未来的大模型训练，很可能是 SFT（打基础）+ DPO（塑风格）+ GRPO（提智商） 的模块化组合拳。

对于每一位AI实践者而言，理解这些技术不再是可选项，而是必修课。它决定了你能否以最高的效率、最低的成本，将一个大模型“培养”成你业务场景中不可或缺的专家。

希望这篇文章能帮你拨开迷雾，下一次当你听到PPO、GRPO、DPO时，你能清晰地看到它们背后不同的培养哲学，并为你的AI项目选出那位最合适的“冠军教练”。

大模型强化学习扫盲：PPO、GRPO、DPO，哪个才是你的“AI教练”？

一、引言：为什么大模型需要“强化学习”？SFT不够好吗？