提到提升大模型能力,SFT(监督微调)再接 RL(强化学习)的范式是一套常见操作。但在各种场景实践后,你可能会发现事情并没有那么简单。
作为大模型从业者或者研究人员的你,大概率也遇到过以下困境之一:
- 越学越差: 手里的有些 SFT 业务数据,但微调后再接 RL,模型性能不升反降,甚至不如直接 RL。到底是 SFT “火候”过了,还是数据本身有问题?
- 原地踏步:费尽心力搭建了 RL 训练管线,却发现模型提升有限,效果还不如用同样的数据做蒸馏 SFT 来得直接。
- 顾此失彼:SFT 后,虽然目标任务性能提升了,但模型的通用能力却明显下降,不得不在两者之间艰难取舍。
如果这些场景让你感到熟悉,问题很可能出在你使用的“离线专家数据(Off-policy Expert Data)”上。针对这一挑战,通义实验室 Trinity-RFT 团队提出 CHORD 框架——通过动态融合 SFT 与 RL,让模型学会“取其精华”,实现从模仿到超越的跃迁。
✅ arXiv
✅ GitHub仓库
我们通过实验观察到一个非常有趣的现象:直接用高质量的专家数据做SFT,模型的性能并不会一路高歌,反而会走出一条“性能暴跌 ➡️适应爬坡 ➡️过拟合僵化” 的奇特曲线 🎢。
这就像一位优秀的学生,突然被要求全盘模仿另一套完全不同的解题思路(与现有模型 Pattern 不同的 Off-policy 数据)。初期,他会因困惑和不适导致成绩暂时下滑(自身原本的策略发生偏移),在艰难适应了新方法后(重新适应到专家的 Pattern),却可能发现自己的思维已被固化,只会死记硬背,失去了举一反三的能力(过拟合)。
SFT 过轻或者过重都会对后续的 RL 表现有明显的影响。如果 SFT 训练不足就被中断进入 RL,模型就像刚刚被打乱解题思路的学生,带着被扰乱的策略去探索,自然效果不佳;而如果SFT做得过重,模型则会对专家范例死记硬背,思维僵化,丧失了 RL 阶段最需要的探索能力与灵活性,后续训练也就无法带来提升。如何平稳地吸收新知识,同时不丢失原有的灵活性,是一个巨大的难题。
对 SFT 的控制失衡是导致后续 RL 效果不佳的关键。我们认为如何解决这一问题的关键在于我们看待 SFT 和 RL 的方式。与其将它们视为两个独立的训练阶段,不如从一个更统一的视角出发:SFT 与 RL 的结合是 On-Policy 与 Off-Policy 训练的融合。
只有理解了这一点,我们才能跳出“先做 A 再做 B”的固定框架,让 SFT 的“专家指导”与 RL 的“自我探索”像和弦(CHORD)一样,和谐地融合在一起。🎶
为了实现 SFT 与 RL 的和谐相融,我们提出了 CHORD 框架。我们将 SFT 从一个独立的预处理阶段,转变为 RL 训练全程中一个动态加权的辅助目标。通过对 SFT Loss 进行持续、动态的加权与控制,模型得以在模仿专家与自我探索之间找到平衡。
我们的混合损失函数,将在线策略的 RL 损失和离线策略的 SFT 损失结合起来。
要控制 SFT 数据影响力,就可以直接运用这个全局平衡系数 µ。告别“硬切换”,拥抱“软过渡”。
传统的 SFT-then-RL 范式,可以看作是 µ 的一种极端情况:先设置 µ=1(只做SFT),然后突然切换到 µ=0(只做RL)。这种“硬切换”的位置难以控制,是导致 SFT-then-RL 方法失效的一大原因。
而我们通过对 µ 的动态衰减策略,就实现了从模仿到探索的软过渡。
我们为模型设计了一条从模仿到探索软过渡的学习路径:首先,将 µ 设为较高值,让模型优先通过 SFT 吸收离线专家数据中的知识与推理模式;接着,随着模型对专家模式的逐渐适应,我们平滑地降低 µ 值,将学习重心从模仿 SFT 数据逐步转移到 RL 的探索优化上;最终,µ 衰减并稳定在一个低值,模型便能专注于 RL 的自我探索,同时有效避免对 SFT 数据的过拟合。
通过“软过渡”,模型获得了超过 SFT-then-RL 的最终效果。那么有了动态 µ 这个方法,问题是不是就完美解决了?
答案是:我们还可以更进一步。
我们发现,即使有了平滑的 µ 衰减,模型最终还是会变成专家的“影子”——它的推理模式、回答风格都趋于被同化。这说明,它学会了模仿,却没学会超越。而我们的目标,不是训练一个只会模仿的“复读机”,而是让模型把专家的经验当成“引导”,而非“模板”。
要实现这一点,仅有宏观的全局调控是不够的,我们必须深入到每一个 Token 的细粒度层面。
如何让模型在学习专家经验时,做到“取其精华,去其糟粕”?
关键在于赋予模型一种选择性学习的能力。一个聪明的学习者在面对参考书时,绝不会逐字逐句地全盘背诵,而是快速跳过已知内容,暂时搁置过于晦涩的部分,聚焦于那些对自己最有启发、最能弥补自身短板的地方。
为此,我们提出使用精巧的 Token 级权重函数 ϕ(·):
对 SFT 数据中每一个 Token 的“学习价值” 来进行评估。
- 这个 Token 与模型当前认知相悖?(Token 生成概率 p 趋近 0)
ϕ 会认为其学习价值低。这可以防止模型受到过于不同数据的冲击,避免了因“水土不服”而导致的策略剧烈波动。 - 这个 Token 模型已经很熟悉了?(Token生成概率p趋近1)
ϕ 会认为其学习价值低,从而大幅降低其在损失函数中的权重。这避免了在已知知识上死记硬背过拟合,也避免了模型 RL 训练过程的“熵坍塌”(模型对现有方式变得过分自信而失去探索能力)。 - 这个 Token 让模型感到“似懂非懂”?(Token生成概率处于中间值)
这正是学习的“甜点区”!ϕ 会赋予其较高的学习权重,引导模型集中精力攻克这些自身相对不确定,对模型来说最富信息量、最能带来提升的部分。
这种择优学习的实际效果非常显著。例如,在数学思维链任务的训练后,CHORD 模型学会了选择性地吸收专家范例中严谨的“Verify”验证步骤,并将其巧妙地融入到原有更简洁的思维链中,同时摒弃了专家回答中过于冗长的部分。
这使得模型既保留了自身高效的推理风格,又吸收了专家策略的深度,在回答长度和推理模式上,找到了一个介于纯 RL 和 SFT 之间的平衡点。
这种在学习方式上的转变,也最终直接体现在了模型的性能上。
实验结果表明,使用 CHORD 框架在多个权威基准测试中取得了显著的性能提升。经过数学任务的训练,模型不仅可以在核心的数学推理任务(如AIME、AMC)上全面超越传统的 SFT、RL 及 SFT-then-R L方法,更在通用问答(MMLU-Pro)上展现了卓越的泛化能力。
这有力地证明了我们提出的统一框架能够更稳定、更高效地融合离线专家数据与在线自我探索,最终实现 1+1 > 2 的效果。
我们提出的 CHORD 框架,为 SFT 与 RL 的高效融合提供了新的思路。相关方法已完整开源在 Trinity-RFT 项目中。
论文 On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting 也已在 arXiv 发布,欢迎阅读交流。期待你在更多场景中验证与拓展这一框架,一起推动大模型训练技术的进化!