SAPO:让强化学习告别“硬剪切”

简介: SAPO提出一种稳定高效的大语言模型强化学习方法,通过平滑门控替代硬剪切,解决GRPO/GSPO梯度丢失与不稳定问题。其连续信任域、序列级一致性及token级自适应设计,显著提升训练稳定性与样本效率,适用于dense/MoE模型,在数学、代码、逻辑等多任务上表现优越。

引言

强化学习(Reinforcement Learning, RL)已经成为提升大语言模型(Large Language Models, LLM)推理能力的核心技术之一。现代 RL 训练流程使模型能够解决困难的数学问题、编写复杂代码和进行多模态推理。实践中,一种被广泛采用的方法是基于组的策略优化(group‑based policy optimization):对每个提示采样多个回复,并在组内进行奖励归一化。 然而,尽管该方法效果显著,稳定且高性能的策略优化仍然困难。关键挑战在于 token 级重要性比率(importance ratio)的高方差,尤其是在 MoE 模型中。该比率衡量当前策略偏离生成训练样本的行为策略的程度。当该比值波动过大时(例如由专家路由变化或长序列生成导致),策略更新会变得噪声巨大、不稳定。

现有方法如 GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点:

  • 学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。

  • 难以取得较好平衡:剪切范围太窄 → 大量样本没有梯度;太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。
    因此,GRPO 和 GSPO 常常难以兼顾稳定性、样本效率和收敛效果。为解决这些问题,我们提出Soft Adaptive Policy Optimization(SAPO),一种稳定且性能更优的大语言模型强化学习方法。SAPO 使用平滑、温度控制的门控函数替代硬剪切,在保持稳定性的同时保留更多有效梯度。其特点包括:

  • 连续信任域(无硬剪切不连续性)

  • 序列级一致性(类似 GSPO,但不丢弃整段序列)

  • token 级自适应性(弱化异常 token)

  • 非对称温度设计(正负 tokens 差异化处理)

这些设计让 SAPO 能够达到稳定且有效的学习。

Soft Adaptive Policy Optimization

SAPO 优化以下代理目标:
image.png
image.png
image.png

为什么 SAPO 有效 从门控函数出发

image.png
image.png
image.png
image.png

2大规模 RL:Qwen3‑VL

SAPO 在不同规模的 dense 和 MoE 模型上均有提升。为了进行比较,我们在数学、编码、逻辑和多模态任务的混合上训练 Qwen3-VL-30B-A3B 的一个checkpoint。评估基准包括:

AIME25(数学推理)

LiveCodeBench v6 (代码生成)

ZebraLogic(逻辑推理)

MathVision(多模态数学推理)

结果:SAPO 在相同算力预算下优于 GSPO / GRPO‑R2。

image.png

SAPO 对于强化学习的意义

SAPO 提供了一个实用的方法来稳定和增强大语言模型强化学习训练:

更稳定连续的信任域

更合理的序列级 + token 级联合建模

提升样本效率

不对称温度设计提升训练稳定性

我们期待SAPO成为未来大语言模型强化学习中的基础技术之一。

完整技术细节见论文:https://arxiv.org/abs/2511.20347

相关文章
|
1月前
|
自然语言处理 API 语音技术
Qwen3-TTS全面升级:声情并茂,语通八方
Qwen3-TTS是阿里云推出的旗舰语音合成模型,支持多音色、多语种及多方言,提供49+种情感丰富的高品质声音,覆盖中文、英文、日语等10大语言及多种方言,语速韵律自然拟人。通过Qwen API可轻松调用,适用于多样化场景。
397 2
|
23天前
|
人工智能 开发者
阿里云携手超90%金融机构,交出2025年度答卷
2025年,AI浪潮席卷而来,创新触手可及。值此年末,阿里云开启年度成绩单发布之旅。这是一份回顾,更是一声致谢——感恩每位客户与开发者的信赖相伴。砥砺前行,共赴智能未来!
98 10
|
23天前
|
机器学习/深度学习 人工智能 API
MaaS市场全球领导者!阿里云5项能力获评最高评级
18日,Omdia发布《2025年全球企业级MaaS市场分析》报告,阿里云获评全球领导者,在基础模型、精调、Agent开发等5大维度获最高评级,为中国第一。报告指出,MaaS已进入2.0阶段,需提供全栈AI能力。阿里云凭借PAI-灵骏、百炼平台及Qwen系列大模型,成为领先“能力交付者”。其新技术Aegaeon降低GPU用量82%,通义千问研究获NeurIPS 2025最佳论文奖,显著提升模型效率。目前,阿里通义大模型服务超100万客户,覆盖国际奥委会、宝马、LV等知名机构。2025上半年,《财富》中国500强中7成已用GenAI,阿里云渗透率达53%,居首。
140 8
|
23天前
|
人工智能 安全 搜索推荐
钉钉发布全球首个工作智能操作系统Agent OS,专为AI打造
2025年12月23日,钉钉在杭州发布AI钉钉1.1“木兰”版本,推出全球首个为AI打造的工作智能操作系统——Agent OS,开启“人与AI协同”新范式。通过钉钉ONE、DingTalk Real、AI搜问、悟空Agent及DEAP平台等构建完整AI协作体系,实现AI直连物理世界。发布会推出超20款AI产品,涵盖制造、差旅、客服等场景,全面升级AI表格、AI听记、DingTalk A1,助力企业零门槛迈向AI原生办公。
425 10
|
1月前
|
人工智能 数据处理 Apache
Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可
Ververica,由Apache Flink创始团队创立、阿里云旗下企业,首次入选Forrester 2025流式数据平台领导者象限,凭借在实时AI与流处理领域的技术创新及全场景部署能力获高度认可,成为全球企业构建实时数据基础设施的核心选择。
110 9
Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可
|
1月前
|
自然语言处理 运维 Serverless
打破 IK 分词“架构陷阱”——阿里云 ES Serverless 索引级词典的完美热更新实践
本文将通过一个真实事故的复盘,解析开源 IK 分词器架构设计中的不足,并介绍阿里云 ES Serverless 如何通过“索引级词典”能力,彻底解决热更新引发的搜索错配问题。
255 9
|
1月前
|
云安全 人工智能 自然语言处理
|
1月前
|
存储 自然语言处理 测试技术
一行代码,让 Elasticsearch 集群瞬间雪崩——5000W 数据压测下的性能避坑全攻略
本文深入剖析 Elasticsearch 中模糊查询的三大陷阱及性能优化方案。通过5000 万级数据量下做了高压测试,用真实数据复刻事故现场,助力开发者规避“查询雪崩”,为您的业务保驾护航。
1384 89