先SFT后RL但是效果不佳?你可能没用好“离线专家数据”!

简介: 通义实验室Trinity-RFT团队提出CHORD框架,通过动态融合SFT与RL,解决大模型训练中“越学越差”“顾此失彼”等问题。该框架引入细粒度Token级权重与软过渡机制,实现从模仿到超越的高效学习,在数学推理与通用任务上均显著提升性能,相关代码已开源。

提到提升大模型能力,SFT(监督微调)再接 RL(强化学习)的范式是一套常见操作。但在各种场景实践后,你可能会发现事情并没有那么简单。


作为大模型从业者或者研究人员的你,大概率也遇到过以下困境之一:

  • 越学越差: 手里的有些 SFT 业务数据,但微调后再接 RL,模型性能不升反降,甚至不如直接 RL。到底是 SFT “火候”过了,还是数据本身有问题?
  • 原地踏步:费尽心力搭建了 RL 训练管线,却发现模型提升有限,效果还不如用同样的数据做蒸馏 SFT 来得直接。
  • 顾此失彼:SFT 后,虽然目标任务性能提升了,但模型的通用能力却明显下降,不得不在两者之间艰难取舍。


如果这些场景让你感到熟悉,问题很可能出在你使用的“离线专家数据(Off-policy Expert Data)”上。针对这一挑战,通义实验室 Trinity-RFT 团队提出 CHORD 框架——通过动态融合 SFT 与 RL,让模型学会“取其精华”,实现从模仿到超越的跃迁。


arXiv

GitHub仓库

640 (13).png


我们通过实验观察到一个非常有趣的现象:直接用高质量的专家数据做SFT,模型的性能并不会一路高歌,反而会走出一条“性能暴跌 ➡️适应爬坡 ➡️过拟合僵化” 的奇特曲线 🎢


640.png


这就像一位优秀的学生,突然被要求全盘模仿另一套完全不同的解题思路(与现有模型 Pattern 不同的 Off-policy 数据)。初期,他会因困惑和不适导致成绩暂时下滑(自身原本的策略发生偏移),在艰难适应了新方法后(重新适应到专家的 Pattern),却可能发现自己的思维已被固化,只会死记硬背,失去了举一反三的能力(过拟合)。


SFT 过轻或者过重都会对后续的 RL 表现有明显的影响。如果 SFT 训练不足就被中断进入 RL,模型就像刚刚被打乱解题思路的学生,带着被扰乱的策略去探索,自然效果不佳;而如果SFT做得过重,模型则会对专家范例死记硬背,思维僵化,丧失了 RL 阶段最需要的探索能力与灵活性,后续训练也就无法带来提升。何平稳地吸收新知识,同时不丢失原有的灵活性,是一个巨大的难题。


对 SFT 的控制失衡是导致后续 RL 效果不佳的关键。我们认为如何解决这一问题的关键在于我们看待 SFT 和 RL 的方式。与其将它们视为两个独立的训练阶段,不如从一个更统一的视角出发:SFT 与 RL 的结合是 On-Policy 与 Off-Policy 训练的融合。

只有理解了这一点,我们才能跳出“先做 A 再做 B”的固定框架,让 SFT 的“专家指导”与 RL 的“自我探索”像和弦(CHORD)一样,和谐地融合在一起。🎶

640 (1).png


为了实现 SFT 与 RL 的和谐相融,我们提出了 CHORD 框架。我们将 SFT 从一个独立的预处理阶段,转变为 RL 训练全程中一个动态加权的辅助目标。通过对 SFT Loss 进行持续、动态的加权与控制,模型得以在模仿专家与自我探索之间找到平衡。

640 (2).png


我们混合损失函数,将在线策略的 RL 损失和离线策略的 SFT 损失结合起来

640 (3).png


控制 SFT 数据影响力,就可以直接运用这个全局平衡系数 µ。告别“硬切换”,拥抱“软过渡”。

传统的 SFT-then-RL 范式,可以看作是 µ 的一种极端情况:先设置 µ=1(只做SFT),然后突然切换到 µ=0(只做RL)。这种“硬切换”的位置难以控制,是导致 SFT-then-RL 方法失效的一大原因。

而我们通过对 µ 的动态衰减策略,就实现了从模仿到探索的软过渡

640 (4).png


我们模型设计了一条从模仿到探索软过渡的学习路径:首先,将 µ 设为较高值,让模型优先通过 SFT 吸收离线专家数据中的知识与推理模式;接着,随着模型对专家模式的逐渐适应,我们平滑地降低 µ 值,将学习重心从模仿 SFT 数据逐步转移到 RL 的探索优化上;最终,µ 衰减并稳定在一个低值,模型便能专注于 RL 的自我探索,同时有效避免对 SFT 数据的过拟合。

通过“软过渡”,模型获得了超过 SFT-then-RL 的最终效果。那么有了动态 µ 这个方法,问题是不是就完美解决了?

答案是:我们还可以更进一步。

我们发现,即使有了平滑的 µ 衰减,模型最终还是会变成专家的“影子”——它的推理模式、回答风格都趋于被同化。这说明,它学会了模仿,却没学会超越。而我们的目标,不是训练一个只会模仿的“复读机”,而是让模型把专家的经验当成“引导”,而非“模板”。

要实现这一点,仅有宏观的全局调控是不够的,我们必须深入到每一个 Token 的细粒度层面。

640 (5).png

如何让模型在学习专家经验时,做到“取其精华,去其糟粕”?

关键在于赋予模型一种选择性学习的能力。一个聪明的学习者在面对参考书时,绝不会逐字逐句地全盘背诵,而是快速跳过已知内容,暂时搁置过于晦涩的部分,聚焦于那些对自己最有启发、最能弥补自身短板的地方

为此,我们提出使用精巧的 Token 级权重函数 ϕ(·)

640 (6).png


对 SFT 数据中每一个 Token 的“学习价值” 来进行评估。

  • 这个 Token 与模型当前认知相悖?(Token 生成概率 p 趋近 0)
    ϕ 会认为其学习价值低。这可以防止模型受到过于不同数据的冲击,避免了因“水土不服”而导致的策略剧烈波动
  • 这个 Token 模型已经很熟悉了?(Token生成概率p趋近1)
    ϕ 会认为其学习价值低,从而大幅降低其在损失函数中的权重。这避免了在已知知识上死记硬背过拟合,也避免了模型 RL 训练过程的“熵坍塌”(模型对现有方式变得过分自信而失去探索能力)。
  • 这个 Token 让模型感到“似懂非懂”?(Token生成概率处于中间值)
    这正是学习的“甜点区”!ϕ 会赋予其较高的学习权重,引导模型集中精力攻克这些自身相对不确定,对模型来说最富信息量、最能带来提升的部分。

这种择优学习的实际效果非常显著。例如,在数学思维链任务的训练后,CHORD 模型学会了选择性地吸收专家范例中严谨的“Verify”验证步骤,并将其巧妙地融入到原有更简洁的思维链中,同时摒弃了专家回答中过于冗长的部分。

640 (7).png


这使得模型既保留了自身高效的推理风格,又吸收了专家策略的深度,在回答长度和推理模式上,找到了一个介于纯 RL 和 SFT 之间的平衡点。


640 (8).png


这种在学习方式上的变,最终直接体现在了模型的性能上。

实验结果表明,使用 CHORD 框架在多个权威基准测试中取得了显著的性能提升。经过数学任务的训练,模型不仅可以在核心的数学推理任务(如AIME、AMC)上全面超越传统的 SFT、RL 及 SFT-then-R L方法,更在通用问答(MMLU-Pro)上展现了卓越的泛化能力。

这有力地证明了我们提出的统一框架能够更稳定、更高效地融合离线专家数据与在线自我探索,最终实现 1+1 > 2 的效果。

我们提出的 CHORD 框架,为 SFT 与 RL 的高效融合提供了新的思路。相关方法已完整开源在 Trinity-RFT 项目中。

论文 On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting 也已在 arXiv 发布,欢迎阅读交流。期待你在更多场景中验证与拓展这一框架,一起推动大模型训练技术的进化!

相关文章
|
6月前
|
缓存 自然语言处理 并行计算
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
腾讯自研 FastMTP 重磅开源:推理速度暴涨 203%,消费级显卡也能跑出无损速度翻倍!
611 2
|
2月前
|
API Apache
OPIK:一个开源的自动提示词优化框架
本文介绍如何用OPIK的MetaPromptOptimizer实现自动提示词优化,通过几轮迭代将大模型在复杂推理任务上的准确率从34%提升至97%。详解环境搭建、代码实现及优缺点,展示如何让LLM自我改进提示词,大幅提升效率与性能,推动提示工程迈向自动化。
196 2
|
7月前
|
机器学习/深度学习 存储 算法
Trinity-RFT:构建智能体持续学习的自动化强化微调工厂
大型语言模型作为智能体在真实环境中持续交互学习面临诸多挑战。 Trinity-RFT 是通义实验室推出的强化微调框架,旨在实现智能体的持续进化。它通过探索、训练与经验池的解耦设计,支持多样化训练模式,提升资源利用率和学习稳定性。同时,Trinity-RFT 提供灵活的数据处理与算法模块化功能,降低应用与研究门槛,助力迈向终身学习与自主进化的智能体时代。
744 2
|
6月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
1627 89
|
5月前
|
机器学习/深度学习 缓存 自然语言处理
【万字长文】大模型训练推理和性能优化算法总结和实践
我们是阿里云公共云 AI 汽车行业大模型技术团队,致力于通过专业的全栈 AI 技术推动 AI 的落地应用。
2471 39
【万字长文】大模型训练推理和性能优化算法总结和实践
|
6月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
662 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
|
5月前
|
存储 人工智能 JSON
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
本文面向对 AI Coding 感兴趣的朋友介绍 Claude Code。通过此次分享,可以让没有体验过的快速体验,体验过的稍微理解其原理,以便后续更好地使用。
2480 18
揭秘 Claude Code:AI 编程入门、原理和实现,以及免费替代 iFlow CLI
|
6月前
|
机器学习/深度学习 人工智能 运维
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
这篇文章系统性地阐述了 AI 原生时代下,面向技术风险领域的智能体系统(DeRisk)的架构设计、核心理念、关键技术演进路径与实践落地案例。
三重Reward驱动的运维智能体进化:多智能体、上下文工程与强化学习的融合实践
|
5月前
|
数据采集 文字识别 算法
精通RAG:从“能用”到“好用”的进阶优化与评估之道
你的RAG应用是否总是答非所问,或者检索到的内容质量不高?本文聚焦于RAG系统的进阶优化,深入探讨从查询转换、多路召回与重排序(Rerank)等高级检索策略,到知识库构建的最佳实践。更重要的是,我们将引入强大的`Ragas`评估框架,教你如何用数据驱动的方式,科学地量化和提升你的RAG系统性能。
535 7
|
10月前
|
机器学习/深度学习 小程序 数据挖掘
Multi-Agent 的灵活编排之路
本文探讨了Copilot 3.0架构中规划模块结合DeepSeek R1强化学习(GRPO)的实践,重点分析多智能体架构下大模型如何灵活调度多个智能体解决实际问题。文章从背景、问题分析、Planning角色、难点、效果对比到解决方案进行了深入讲解,并通过实验现象展示了有无思考过程对模型性能的影响。结果显示,GRPO训练后推理长度显著降低,准确率提升7.4个百分点,同时解决了复杂问题与简单问题处理间的平衡问题。
1054 11
Multi-Agent 的灵活编排之路

热门文章

最新文章