SAPO：让强化学习告别“硬剪切”

2025-12-12 672

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： SAPO提出一种稳定高效的大语言模型强化学习方法，通过平滑门控替代硬剪切，解决GRPO/GSPO梯度丢失与不稳定问题。其连续信任域、序列级一致性及token级自适应设计，显著提升训练稳定性与样本效率，适用于dense/MoE模型，在数学、代码、逻辑等多任务上表现优越。

引言

强化学习（Reinforcement Learning, RL）已经成为提升大语言模型（Large Language Models, LLM）推理能力的核心技术之一。现代 RL 训练流程使模型能够解决困难的数学问题、编写复杂代码和进行多模态推理。实践中，一种被广泛采用的方法是基于组的策略优化（group‑based policy optimization）：对每个提示采样多个回复，并在组内进行奖励归一化。然而，尽管该方法效果显著，稳定且高性能的策略优化仍然困难。关键挑战在于 token 级重要性比率（importance ratio）的高方差，尤其是在 MoE 模型中。该比率衡量当前策略偏离生成训练样本的行为策略的程度。当该比值波动过大时（例如由专家路由变化或长序列生成导致），策略更新会变得噪声巨大、不稳定。

现有方法如 GRPO（token-level clipping）和 GSPO（sequence-level clipping）采用硬剪切（hard clipping）：当重要性比率超出范围时，梯度直接被截断。尽管能避免灾难性更新，但有两个固有缺点：

学习信号丢失：被剪切区间外的所有梯度全部丢弃。对于 GSPO，只要有少数 token 异常，可能导致整个序列的梯度都被抛弃。
难以取得较好平衡：剪切范围太窄 → 大量样本没有梯度；太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。
因此，GRPO 和 GSPO 常常难以兼顾稳定性、样本效率和收敛效果。为解决这些问题，我们提出Soft Adaptive Policy Optimization（SAPO），一种稳定且性能更优的大语言模型强化学习方法。SAPO 使用平滑、温度控制的门控函数替代硬剪切，在保持稳定性的同时保留更多有效梯度。其特点包括：
连续信任域（无硬剪切不连续性）
序列级一致性（类似 GSPO，但不丢弃整段序列）
token 级自适应性（弱化异常 token）
非对称温度设计（正负 tokens 差异化处理）

这些设计让 SAPO 能够达到稳定且有效的学习。