GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题

简介: 这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破

这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破

大规模强化学习的稳定性挑战

强化学习(Reinforcement Learning, RL)已成为构建先进大语言模型(Large Language Models, LLMs)的核心技术环节。通过人类反馈强化学习(RLHF)和AI反馈强化学习(RLAIF)等方法,模型获得了执行复杂指令、进行多步推理以及与人类偏好对齐的能力。

然而大规模强化学习面临的核心挑战在于训练稳定性。在实际训练过程中,模型经常出现突发性性能退化,表现为能力丢失和输出质量严重下降,这种现象被称为"模型崩溃"。此类不稳定性不仅造成大量计算资源浪费,更严重阻碍了技术发展进程。

Qwen团队在其最新研究中提出了群组序列策略优化(Group Sequence Policy Optimization, GSPO)算法,该算法针对性地解决了上述稳定性问题。为深入理解GSPO的技术价值,本文将首先分析其前身算法群组相对策略优化(Group Relative Policy Optimization, GRPO)的设计理念与内在缺陷,进而阐述GSPO如何通过算法改进实现更稳健的训练过程。

GRPO算法:超越PPO的技术创新

在GSPO出现之前,大语言模型的强化学习训练主要依赖近端策略优化(Proximal Policy Optimization, PPO)算法,该算法在InstructGPT的训练中得到了广泛应用。PPO的训练框架涉及四个关键组件:策略模型作为主要的训练目标,参考模型作为原始模型的冻结副本以约束策略偏移,奖励模型基于人类或AI偏好对模型输出进行评分,以及价值模型用于预测未来奖励但计算成本高昂。

群组相对策略优化(GRPO)的核心创新在于消除了对计算密集型价值模型的依赖。该算法采用了一种创新的群组生成和相对评估机制:对于给定的输入提示,系统生成G个不同的响应构成一个群组,随后奖励模型对群组内所有响应进行评分。通过计算群组内分数的均值和标准差,算法为每个响应计算相对优势值(Â_i)。优于群组平均水平的响应获得正向优势,反之则获得负向优势。

这种设计显著降低了强化学习训练的内存占用和计算复杂度,使大规模模型的训练变得更加高效和可行,代表了该领域的重要技术进步。

GRPO在大规模应用中的局限性

尽管GRPO在概念层面表现出色,但其底层实现存在一个关键的设计缺陷,该缺陷在大规模模型训练中会导致严重的稳定性问题。

问题的根源在于奖励分配与优化更新之间的粒度不匹配:奖励值(Â_i)是基于完整序列计算得出的,而GRPO的优化更新却在令牌(token)级别执行。为了将序列级奖励应用于每个令牌,GRPO引入了令牌级重要性权重w_i,t(θ),该参数在目标函数中起到关键作用。

权重w_i,t(θ)表示新策略相对于旧策略生成特定令牌y_i,t的概率比值,每个令牌的梯度更新通过w_i,t(θ) * Â_i进行调整。

此处的不稳定性源于同一序列内不同令牌之间权重值的剧烈波动。在获得单一序列级评分Â_i的情况下,序列内各令牌的重要性权重w_i,t可能出现显著差异,导致学习信号的噪声化和不一致性。随着训练序列长度的增加,这种噪声效应累积并可能触发整个训练过程的失稳,最终导致模型崩溃。该问题在稀疏专家混合(Mixture-of-Experts, MoE)模型中尤为严重,因为这类模型的令牌概率在更新过程中变化更为剧烈。

GSPO算法:实现优化粒度与奖励粒度的统一

群组序列策略优化(GSPO)基于一个核心设计原则解决了上述问题:优化单位应当与奖励单位保持一致。

鉴于奖励是在序列层面给出的,GSPO将重要性采样校正也调整到序列层面执行。算法使用稳定的序列级重要性比率s_i(θ)替代了噪声较大的令牌级权重。

序列级重要性比率s_i(θ)衡量新策略相对于旧策略生成完整序列y_i的概率比值。算法设计的关键在于引入了长度标准化机制(指数项中的1/|y_i|),确保重要性比率在数值上保持稳定,无论序列长度为10个令牌还是1000个令牌。

这种设计产生了一个清晰且稳健的更新规则:给定序列内的所有令牌接收完全一致的更新权重,该权重由s_i(θ) * Â_i确定。令牌级别的不一致反馈被消除,取而代之的是基于完整序列奖励的统一更新机制。

算法优越性的量化证据

GSPO论文通过多维度实验验证了算法的技术优势。

训练稳定性和性能对比实验(图1)表明,在相同计算资源配置下,GSPO相比GRPO展现出更优的训练稳定性和基准测试性能。训练曲线清晰地反映了GSPO的优势。

令牌裁剪行为分析(图2)揭示了一个重要发现:GSPO裁剪了显著更高比例的令牌(15%),而GRPO仅裁剪0.13%的令牌。裁剪机制用于移除与旧策略差异过大的样本。GSPO在丢弃更多"离策略"数据的同时仍保持更优性能,这强烈表明其序列级信号在识别低质量训练样本方面具有更高的可靠性,而GRPO的令牌级信号存在效率问题。

专家混合模型稳定性测试显示,由于GSPO对MoE模型中个别令牌概率波动的不敏感性,该算法能够稳定地训练此类模型,无需采用"路由重放"等GRPO所必需的复杂解决方案。

总结

GSPO的贡献远超增量性改进。通过识别并修复GRPO中的根本性设计缺陷,该算法为稳定且可扩展的强化学习建立了更加坚实的理论基础。算法实现了数学目标与序列奖励实际特性的有效对齐,产生了更清晰的学习信号、更优的性能表现和更强的训练稳定性,这些优势对于未来大规模复杂模型的发展具有重要意义。

从令牌级优化向序列级优化的转变体现了算法设计的重要洞察,这一范式转变必将对未来语言模型强化学习算法的发展产生深远影响。

论文:

https://avoid.overfit.cn/post/7e72446552ba45fa9b263b8db170827c

目录
相关文章
|
4月前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
4月前
|
机器学习/深度学习 人工智能 人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
432 121
|
4月前
|
数据采集 人工智能 搜索推荐
智能新纪元:多模态大模型如何重塑人机交互
智能新纪元:多模态大模型如何重塑人机交互
291 113
|
4月前
|
人工智能 人机交互 知识图谱
当AI学会“融会贯通”:多模态大模型如何重塑未来
当AI学会“融会贯通”:多模态大模型如何重塑未来
343 114
|
4月前
|
人工智能 安全 搜索推荐
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
当AI学会“看”和“听”:多模态大模型如何重塑人机交互
322 117
|
4月前
|
机器学习/深度学习 算法 机器人
大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解
近期LLM强化学习进展迅速,CE-GPPO、EPO与AsyPPO三篇论文从梯度恢复、时序平滑与非对称critic集成等角度,分别解决熵控难题,共同推动大规模推理模型训练方法革新。
337 3
大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
835 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
5月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
733 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
5月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
583 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定