先SFT后RL但是效果不佳？你可能没用好“离线专家数据”！-阿里云开发者社区

先SFT后RL但是效果不佳？你可能没用好“离线专家数据”！

2025-10-16 906

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通义实验室Trinity-RFT团队提出CHORD框架，通过动态融合SFT与RL，解决大模型训练中“越学越差”“顾此失彼”等问题。该框架引入细粒度Token级权重与软过渡机制，实现从模仿到超越的高效学习，在数学推理与通用任务上均显著提升性能，相关代码已开源。

提到提升大模型能力，SFT（监督微调）再接 RL（强化学习）的范式是一套常见操作。但在各种场景实践后，你可能会发现事情并没有那么简单。

作为大模型从业者或者研究人员的你，大概率也遇到过以下困境之一：

越学越差： 手里的有些 SFT 业务数据，但微调后再接 RL，模型性能不升反降，甚至不如直接 RL。到底是 SFT “火候”过了，还是数据本身有问题？
原地踏步：费尽心力搭建了 RL 训练管线，却发现模型提升有限，效果还不如用同样的数据做蒸馏 SFT 来得直接。
顾此失彼：SFT 后，虽然目标任务性能提升了，但模型的通用能力却明显下降，不得不在两者之间艰难取舍。

如果这些场景让你感到熟悉，问题很可能出在你使用的“离线专家数据（Off-policy Expert Data）”上。针对这一挑战，通义实验室 Trinity-RFT 团队提出 CHORD 框架——通过动态融合 SFT 与 RL，让模型学会“取其精华”，实现从模仿到超越的跃迁。

✅ arXiv

✅ GitHub仓库

640 (13).png

我们通过实验观察到一个非常有趣的现象：直接用高质量的专家数据做SFT，模型的性能并不会一路高歌，反而会走出一条“性能暴跌 ➡️适应爬坡 ➡️过拟合僵化” 的奇特曲线 🎢。

这就像一位优秀的学生，突然被要求全盘模仿另一套完全不同的解题思路（与现有模型 Pattern 不同的 Off-policy 数据）。初期，他会因困惑和不适导致成绩暂时下滑（自身原本的策略发生偏移），在艰难适应了新方法后（重新适应到专家的 Pattern），却可能发现自己的思维已被固化，只会死记硬背，失去了举一反三的能力（过拟合）。

SFT 过轻或者过重都会对后续的 RL 表现有明显的影响。如果 SFT 训练不足就被中断进入 RL，模型就像刚刚被打乱解题思路的学生，带着被扰乱的策略去探索，自然效果不佳；而如果SFT做得过重，模型则会对专家范例死记硬背，思维僵化，丧失了 RL 阶段最需要的探索能力与灵活性，后续训练也就无法带来提升。如何平稳地吸收新知识，同时不丢失原有的灵活性，是一个巨大的难题。

对 SFT 的控制失衡是导致后续 RL 效果不佳的关键。我们认为如何解决这一问题的关键在于我们看待 SFT 和 RL 的方式。与其将它们视为两个独立的训练阶段，不如从一个更统一的视角出发：SFT 与 RL 的结合是 On-Policy 与 Off-Policy 训练的融合。

只有理解了这一点，我们才能跳出“先做 A 再做 B”的固定框架，让 SFT 的“专家指导”与 RL 的“自我探索”像和弦(CHORD)一样，和谐地融合在一起。🎶

640 (1).png

为了实现 SFT 与 RL 的和谐相融，我们提出了 CHORD 框架。我们将 SFT 从一个独立的预处理阶段，转变为 RL 训练全程中一个动态加权的辅助目标。通过对 SFT Loss 进行持续、动态的加权与控制，模型得以在模仿专家与自我探索之间找到平衡。

640 (2).png

我们的混合损失函数，将在线策略的 RL 损失和离线策略的 SFT 损失结合起来。

640 (3).png

要控制 SFT 数据影响力，就可以直接运用这个全局平衡系数 µ。告别“硬切换”，拥抱“软过渡”。

传统的 SFT-then-RL 范式，可以看作是 µ 的一种极端情况：先设置 µ=1（只做SFT），然后突然切换到 µ=0（只做RL）。这种“硬切换”的位置难以控制，是导致 SFT-then-RL 方法失效的一大原因。

而我们通过对 µ 的动态衰减策略，就实现了从模仿到探索的软过渡。

640 (4).png

我们为模型设计了一条从模仿到探索软过渡的学习路径：首先，将 µ 设为较高值，让模型优先通过 SFT 吸收离线专家数据中的知识与推理模式；接着，随着模型对专家模式的逐渐适应，我们平滑地降低 µ 值，将学习重心从模仿 SFT 数据逐步转移到 RL 的探索优化上；最终，µ 衰减并稳定在一个低值，模型便能专注于 RL 的自我探索，同时有效避免对 SFT 数据的过拟合。

通过“软过渡”，模型获得了超过 SFT-then-RL 的最终效果。那么有了动态 µ 这个方法，问题是不是就完美解决了？

答案是：我们还可以更进一步。

我们发现，即使有了平滑的 µ 衰减，模型最终还是会变成专家的“影子”——它的推理模式、回答风格都趋于被同化。这说明，它学会了模仿，却没学会超越。而我们的目标，不是训练一个只会模仿的“复读机”，而是让模型把专家的经验当成“引导”，而非“模板”。

要实现这一点，仅有宏观的全局调控是不够的，我们必须深入到每一个 Token 的细粒度层面。

640 (5).png

如何让模型在学习专家经验时，做到“取其精华，去其糟粕”？

关键在于赋予模型一种选择性学习的能力。一个聪明的学习者在面对参考书时，绝不会逐字逐句地全盘背诵，而是快速跳过已知内容，暂时搁置过于晦涩的部分，聚焦于那些对自己最有启发、最能弥补自身短板的地方。

为此，我们提出使用精巧的 Token 级权重函数 ϕ(·)：

640 (6).png

对 SFT 数据中每一个 Token 的“学习价值” 来进行评估。

这个 Token 与模型当前认知相悖？(Token 生成概率 p 趋近 0)
ϕ 会认为其学习价值低。这可以防止模型受到过于不同数据的冲击，避免了因“水土不服”而导致的策略剧烈波动。
这个 Token 模型已经很熟悉了？(Token生成概率p趋近1)
ϕ 会认为其学习价值低，从而大幅降低其在损失函数中的权重。这避免了在已知知识上死记硬背过拟合，也避免了模型 RL 训练过程的“熵坍塌”（模型对现有方式变得过分自信而失去探索能力）。
这个 Token 让模型感到“似懂非懂”？(Token生成概率处于中间值)
这正是学习的“甜点区”！ϕ 会赋予其较高的学习权重，引导模型集中精力攻克这些自身相对不确定，对模型来说最富信息量、最能带来提升的部分。

这种择优学习的实际效果非常显著。例如，在数学思维链任务的训练后，CHORD 模型学会了选择性地吸收专家范例中严谨的“Verify”验证步骤，并将其巧妙地融入到原有更简洁的思维链中，同时摒弃了专家回答中过于冗长的部分。

640 (7).png

这使得模型既保留了自身高效的推理风格，又吸收了专家策略的深度，在回答长度和推理模式上，找到了一个介于纯 RL 和 SFT 之间的平衡点。

640 (8).png

这种在学习方式上的转变，也最终直接体现在了模型的性能上。

实验结果表明，使用 CHORD 框架在多个权威基准测试中取得了显著的性能提升。经过数学任务的训练，模型不仅可以在核心的数学推理任务（如AIME、AMC）上全面超越传统的 SFT、RL 及 SFT-then-R L方法，更在通用问答（MMLU-Pro）上展现了卓越的泛化能力。

这有力地证明了我们提出的统一框架能够更稳定、更高效地融合离线专家数据与在线自我探索，最终实现 1+1 > 2 的效果。

我们提出的 CHORD 框架，为 SFT 与 RL 的高效融合提供了新的思路。相关方法已完整开源在 Trinity-RFT 项目中。

论文 On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting 也已在 arXiv 发布，欢迎阅读交流。期待你在更多场景中验证与拓展这一框架，一起推动大模型训练技术的进化！

先SFT后RL但是效果不佳？你可能没用好“离线专家数据”！

千问大模型

热门文章

最新文章

相关电子书