基于PAI-ChatLearn的GSPO强化学习实践

简介: 近期,阿里通义千问团队创新性提出了GSPO算法,GSPO 算法与其他 RL 算法相比,定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。同时具有强大高效、稳定性出色、基础设施友好的突出优势。

近期,阿里通义千问团队创新性提出了 GSPO 算法,PAI-ChatLearn 框架第一时间支持并复现了 GSPO 的强化学习训练过程,本文将介绍在 PAI 平台复现 GSPO 的最佳实践


一、GSPO 算法介绍

强化学习(Reinforcement Learning,RL)是拓展语言模型、增加其深度推理与问题求解能力的关键技术范式。为了持续拓展 RL,首要前提是确保稳定、鲁棒的训练过程。现有的 RL 算法(如 GRPO)在长期训练中,会暴露出严重的不稳定性问题并招致不可逆转的模型崩溃,阻碍了通过增加计算以获得进一步的性能提升。


针对这个问题,通义团队提出了 GSPO(Group Sequence Policy Optimization,arxiv 地址:https://arxiv.org/abs/2507.18071)算法。GSPO 算法与其他 RL 算法相比,定义了序列级别的重要性比率,并在序列层面执行裁剪、奖励和优化。


相较于 GRPO,GSPO 在以下方面展现出突出优势:


  • 强大高效:GSPO 具备显著更高的训练效率,并且能够通过增加计算获得持续的性能提升;
  • 稳定性出色:GSPO 能够保持稳定的训练过程,并且根本地解决了混合专家(Mixture-of-Experts,MoE)模型的 RL 训练稳定性问题;
  • 基础设施友好:由于在序列层面执行优化,GSPO 原则上对精度容忍度更高,具有简化 RL 基础设施的诱人前景。


二、PAI-ChatLearn 强化学习框架介绍

PAI-ChatLearn(https://github.com/alibaba/ChatLearn)是阿里云人工智能平台 PAI 推出高性能一体化强化学习框架,第一时间支持并复现了 GSPO 的强化学习训练过程。PAI-ChatLearn 具备如下几个优势:

  • 易用性

通过计算图构建的方式,支持用户只需要封装几个函数就可以实现不同种类强化学习算法训练。同时 ChatLearn 支持灵活的资源调度机制,支持各模型的资源独占或复用,通过系统调度策略支持高效的串行/并行执行和高效的显存共享。

  • 高性能

支持 Sequence Packing、Sequence Parallel、Group GEMM 等加速技术,极大提升了 GPU 利用率。

  • 支持不同推理和训练引擎

支持 vLLM 和 SGLang 推理框架以及 FSDP 和 Megatron 作为训练框架进行高效稳定的强化学习训练。

新1.png

PAI-ChatLearn 整体架构


本文将介绍如何基于 PAI-ChatLearn 框架,在 2机8xH20 上快速开始基于 Megatron-Core 及 vLLM 引擎的 GSPO 训练。


三、PAI 平台运行 GSPO 端到端流程

GSPO 强化学习训练全过程的复现,将在阿里云人工智能平台 PAI 上完成PAI 提供云原生的 AI 分布式训练平台 PAI-DLC 和交互式建模 PAI-DSW,为开发者和企业提供灵活、稳定、易用和高性能的大模型开发、训练环境,支持快速完成 GSPO 全过程复现。


Step 1:环境配置

1. Docker 镜像准备

在 PAI-DLC 或 PAI-DSW 复现 GSPO 全过程,填写如下镜像地址,启动实例:

dsw-registry.cn-shanghai.cr.aliyuncs.com/pai-training-algorithm/chatlearn:torch2.6.0-vllm0.8.5-ubuntu24.04-cuda12.6-py312

可以使用 vpc 地址来加速镜像拉取速度,请根据实例所在 region 修改镜像地址。以上海 Region 的 PAI-DSW 实例为例,使用如下镜像:

dsw-registry-vpc.cn-shanghai.cr.aliyuncs.com/pai-training-algorithm/chatlearn:torch2.6.0-vllm0.8.5-ubuntu24.04-cuda12.6-py312

若在非 PAI 的环境中使用可直接拉取如下公网镜像地址进行实验:

dsw-registry.cn-shanghai.cr.aliyuncs.com/pai-training-algorithm/chatlearn:torch2.6.0-vllm0.8.5-ubuntu24.04-cuda12.6-py312

2. 代码准备

git clone https://github.com/alibaba/ChatLearn.git
wget https://pai-vision-data-hz.oss-cn-zhangjiakou.aliyuncs.com/csrc/Pai-Megatron-Patch.tar
tar -xvf Pai-Megatron-Patch.tar

Step 2:数据&模型准备

MATH-lighteval(https://x.sm.cn/5ABjI65数据集作为示例,完成数据集下载和模型准备。

cd ChatLearn
# download dataset
mkdir -p dataset
modelscope download --dataset AI-ModelScope/MATH-lighteval --local_dir dataset/MATH-lighteval
# preprocess dataset
python chatlearn/data/data_preprocess/math_lighteval.py --input_dir dataset/MATH-lighteval --local_dir dataset/MATH-lighteval
# download model weight
modelscope download --model Qwen/Qwen3-30B-A3B --local_dir pretrained_models/Qwen3-30B-A3B

Step 3:模型转换

使用下述脚本,将 Qwen3-30B-A3B 的 Huggingface 格式的模型转换到 MCore 格式。

CHATLEARN_ROOT=$(pwd)
cd ../Pai-Megatron-Patch/toolkits/distributed_checkpoints_convertor
bash scripts/qwen3/run_8xH20.sh \
A3B \
${CHATLEARN_ROOT}/pretrained_models/Qwen3-30B-A3B  \
${CHATLEARN_ROOT}/pretrained_models/Qwen3-30B-A3B-to-mcore \
false  \
true  \
bf16

Step 4:训练

运行以下命令开始 GSPO 强化学习训练。

cd ${CHATLEARN_ROOT}
bash scripts/train_mcore_vllm_qwen3_30b_gspo.sh

实验结果

我们在 MATH-lighteval 上对比了 GRPO 与 GSPO 两种算法的收敛效果。代表  GSPO 和 GRPO 的两条曲线都呈明显的上升趋势,说明随着训练的进行,两种方法在该任务上的性能都在稳步提升。同时,GSPO 的曲线持续位于 GRPO 上方,反映出 GSPO 相对于基线方法在收敛上具有一定优势。

图2.png

GRPO 与 GSPO 两种算法的收敛效果


对于两组实验的实际 clip 比例,我们能得到与论文量级接近的结果。

图3.png

四、结语

在大模型蓬勃发展的今天,阿里云人工智能平台 PAI 提供围绕大模型全生命周期的平台能力支持,将持续推出在强化学习、模型蒸馏、数据预处理等方向的最佳实践和技术解读。诚邀您共同探索企业级AI工程化的最佳实践,获取智能化转型的核心技术密钥。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1516 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
7月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
6月前
|
机器学习/深度学习 缓存 算法
解密Qwen3三连发:强化学习新算法GSPO!
强化学习(RL)是提升语言模型推理与问题求解能力的关键技术。然而,现有算法如 GRPO 在长期训练中存在严重不稳定性,限制了性能提升。为此,我们提出 **Group Sequence Policy Optimization (GSPO)**,通过在序列层面定义重要性比率并进行优化,显著提升了训练效率与稳定性。GSPO 在 MoE 模型训练中表现出色,无需依赖复杂策略即可实现高效训练,简化了 RL 基础设施。该算法已成功应用于 Qwen3 系列模型,推动 RL scaling 边界,释放模型潜能。
808 0
|
6月前
|
人工智能 分布式计算 DataWorks
大数据AI产品月刊-2025年7月
大数据& AI 产品技术月刊【2025年7月】,涵盖7月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
7月前
|
人工智能 缓存 资源调度
云上AI推理平台全掌握 (4):大模型分发加速
为应对大模型服务突发流量场景,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效解决大量请求接入情况下的推理延迟。PAI-EAS 大模型分发加速功能,零代码即可轻松完成配置。
|
7月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Qwen3-Coder模型
Qwen3-Coder 是通义千问最新开源的 AI 编程大模型正式开源,拥有卓越的代码和 Agent 能力,在多领域取得了开源模型的 SOTA 效果。PAI 已支持最强版本 Qwen3-Coder-480B-A35B-Instruct 的云上一键部署。
|
7月前
|
消息中间件 人工智能 资源调度
云上AI推理平台全掌握 (5):大模型异步推理服务
针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。
|
8月前
|
数据采集 自动驾驶 Java
PAI-TurboX:面向自动驾驶的训练推理加速框架
PAI-TurboX 为自动驾驶场景中的复杂数据预处理、离线大规模模型训练和实时智能驾驶推理,提供了全方位的加速解决方案。PAI-Notebook Gallery 提供PAI-TurboX 一键启动的 Notebook 最佳实践
|
6月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署gpt-oss系列模型
阿里云 PAI-Model Gallery 已同步接入 gpt-oss 系列模型,提供企业级部署方案。
|
7月前
|
机器学习/深度学习 人工智能 算法
Post-Training on PAI (4):模型微调SFT、DPO、GRPO
阿里云人工智能平台 PAI 提供了完整的模型微调产品能力,支持 监督微调(SFT)、偏好对齐(DPO)、强化学习微调(GRPO) 等业界常用模型微调训练方式。根据客户需求及代码能力层级,分别提供了 PAI-Model Gallery 一键微调、PAI-DSW Notebook 编程微调、PAI-DLC 容器化任务微调的全套产品功能。

热门文章

最新文章