SAPO:让强化学习告别“硬剪切”

简介: SAPO提出一种稳定高效的大语言模型强化学习方法,通过平滑门控替代硬剪切,解决GRPO/GSPO梯度丢失与不稳定问题。其连续信任域、序列级一致性及token级自适应设计,显著提升训练稳定性与样本效率,适用于dense/MoE模型,在数学、代码、逻辑等多任务上表现优越。

引言

强化学习(Reinforcement Learning, RL)已经成为提升大语言模型(Large Language Models, LLM)推理能力的核心技术之一。现代 RL 训练流程使模型能够解决困难的数学问题、编写复杂代码和进行多模态推理。实践中,一种被广泛采用的方法是基于组的策略优化(group‑based policy optimization):对每个提示采样多个回复,并在组内进行奖励归一化。 然而,尽管该方法效果显著,稳定且高性能的策略优化仍然困难。关键挑战在于 token 级重要性比率(importance ratio)的高方差,尤其是在 MoE 模型中。该比率衡量当前策略偏离生成训练样本的行为策略的程度。当该比值波动过大时(例如由专家路由变化或长序列生成导致),策略更新会变得噪声巨大、不稳定。

现有方法如 GRPO(token-level clipping)和 GSPO(sequence-level clipping)采用硬剪切(hard clipping):当重要性比率超出范围时,梯度直接被截断。尽管能避免灾难性更新,但有两个固有缺点:

  • 学习信号丢失:被剪切区间外的所有梯度全部丢弃。对于 GSPO,只要有少数 token 异常,可能导致整个序列的梯度都被抛弃。

  • 难以取得较好平衡:剪切范围太窄 → 大量样本没有梯度;太宽 → off‑policy 梯度噪声破坏稳定性。这在 MoE 模型里尤为明显。
    因此,GRPO 和 GSPO 常常难以兼顾稳定性、样本效率和收敛效果。为解决这些问题,我们提出Soft Adaptive Policy Optimization(SAPO),一种稳定且性能更优的大语言模型强化学习方法。SAPO 使用平滑、温度控制的门控函数替代硬剪切,在保持稳定性的同时保留更多有效梯度。其特点包括:

  • 连续信任域(无硬剪切不连续性)

  • 序列级一致性(类似 GSPO,但不丢弃整段序列)

  • token 级自适应性(弱化异常 token)

  • 非对称温度设计(正负 tokens 差异化处理)

这些设计让 SAPO 能够达到稳定且有效的学习。

Soft Adaptive Policy Optimization

SAPO 优化以下代理目标:
image.png
image.png
image.png

为什么 SAPO 有效 从门控函数出发

image.png
image.png
image.png
image.png

2大规模 RL:Qwen3‑VL

SAPO 在不同规模的 dense 和 MoE 模型上均有提升。为了进行比较,我们在数学、编码、逻辑和多模态任务的混合上训练 Qwen3-VL-30B-A3B 的一个checkpoint。评估基准包括:

AIME25(数学推理)

LiveCodeBench v6 (代码生成)

ZebraLogic(逻辑推理)

MathVision(多模态数学推理)

结果:SAPO 在相同算力预算下优于 GSPO / GRPO‑R2。

image.png

SAPO 对于强化学习的意义

SAPO 提供了一个实用的方法来稳定和增强大语言模型强化学习训练:

更稳定连续的信任域

更合理的序列级 + token 级联合建模

提升样本效率

不对称温度设计提升训练稳定性

我们期待SAPO成为未来大语言模型强化学习中的基础技术之一。

完整技术细节见论文:https://arxiv.org/abs/2511.20347

相关文章
|
17天前
|
存储 弹性计算 固态存储
云服务器租用价格多少钱一年?2026年连夜整理最新收费价格
2026年阿里云服务器优惠汇总:轻量应用服务器38元/年起,ECS经济型e实例2核2G仅99元/年,企业级u1实例2核4G 199元/年,4核16G低至89元/月。香港地域轻量服务器25元/月起,支持多地域部署。更多高配及GPU机型可选,新老用户同享优惠,续费不涨价。
330 10
|
23天前
|
存储 弹性计算 对象存储
阿里云服务器租用费用价格:2026手动整理一年、1个月和1小时收费标准
2026年阿里云服务器租用价格出炉,涵盖轻量应用服务器、ECS、GPU服务器等多种类型。提供38元/年起秒杀价,99元/年起爆款套餐,支持按年、月、小时计费,覆盖个人开发者至企业级应用场景,附带详细选型建议与附加费用说明。
262 10
|
2月前
|
人工智能 安全 搜索推荐
钉钉发布全球首个工作智能操作系统Agent OS,专为AI打造
2025年12月23日,钉钉在杭州发布AI钉钉1.1“木兰”版本,推出全球首个为AI打造的工作智能操作系统——Agent OS,开启“人与AI协同”新范式。通过钉钉ONE、DingTalk Real、AI搜问、悟空Agent及DEAP平台等构建完整AI协作体系,实现AI直连物理世界。发布会推出超20款AI产品,涵盖制造、差旅、客服等场景,全面升级AI表格、AI听记、DingTalk A1,助力企业零门槛迈向AI原生办公。
701 10
|
23天前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
381 38
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
|
2月前
|
人工智能 自然语言处理 安全
⚡阿里云百炼通义音色设计 Voice Design 使用指南🎨
通义千问 qwen-voice-design 模型支持通过文字描述快速生成定制化音色,结合 qwen3-tts-vd-realtime 可输出11种语言语音,适用于广告配音、角色塑造、有声内容创作及多语言出海等场景,提供高效、灵活的语音设计解决方案。
418 9
|
2月前
|
编解码 自然语言处理 搜索推荐
通义百聆语音交互模型开源,创新架构可节省近50%GPU计算!
通义百聆开源新一代语音模型Fun-Audio-Chat-8B,支持语音对语音交互,具备出色共情与情绪感知能力,对话自然流畅。在多项基准测试中超越同级模型,采用高效低算力架构,GPU计算成本降低近50%。支持角色扮演与个性化语音定制,适用于情感陪伴、智能客服等场景,现已开放下载。
397 9
|
2月前
|
自然语言处理 API 语音技术
Qwen3-TTS全面升级:声情并茂,语通八方
Qwen3-TTS是阿里云推出的旗舰语音合成模型,支持多音色、多语种及多方言,提供49+种情感丰富的高品质声音,覆盖中文、英文、日语等10大语言及多种方言,语速韵律自然拟人。通过Qwen API可轻松调用,适用于多样化场景。
817 2
|
23天前
|
设计模式 XML NoSQL
从HITL(Human In The Loop) 实践出发看Agent与设计模式的对跖点
本文探讨在ReactAgent中引入HITL(人机回路)机制的实践方案,分析传统多轮对话的局限性,提出通过交互设计、对话挂起与工具化实现真正的人机协同,并揭示Agent演进背后与工程设计模式(如钩子、适配器、工厂模式等)的深层关联,展望未来Agent的进化方向。
448 44
从HITL(Human In The Loop) 实践出发看Agent与设计模式的对跖点
|
自然语言处理 算法 数据挖掘
自蒸馏:一种简单高效的优化方式
背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
自蒸馏:一种简单高效的优化方式

热门文章

最新文章