【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。

近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表题为 Efficient Long Context Fine-tuning with Chunk Flow 的论文。机器学习国际会议 (ICML) 是致力于推动人工智能分支机器学习的专业人士的重要聚会,是人工智能领域的顶级学术会议之一。


ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,支撑着通义千问 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。Qwen2.5 系列模型性能测试结果表明,ChunkFlow 相较于其他框架,训练的端到端性能有最高4.53倍的提升。


图1.png

一、研究背景


长文本能力是语言模型的核心能力之一,对诸多下游任务都至关重要。续训练(Continue Pre-Training)和长文本微调(Long Context Fine-Tuning)是扩展大语言模型长文本能力的重要一环。通常情况下,这些训练场景通常会在精心挑选的数据集中进行,在数据长度分布上会有显著的特点,展现出极度的长尾效应(数据集中短数据占绝大多数,同时存在超长的训练数据)。这种特殊的数据分布特征给现有的训练系统带来了广泛的性能问题,如 GPU 利用率的不高效、流水线并行的空泡率高等问题。ChunkFlow 是在变长和超长序列数据集上提出的高效训练解决方案。


现有问题


1. 变长数据集中固定的显存策略/并行策略与变化的 Sequence 长度之间的存在矛盾。


现有的训练系统通常会根据数据集中最长的数据制定显存策略和并行策略,但是这种设置对于大多数训练数据来说是不必要的。同时又因为变长数据,在大规模训练过程中存在负载不均衡问题,同时也会增加流水线并行的空泡问题,导致严重的训练性能退化。


2. 超长训练数据带来的巨大显存压力问题。


超长序列带来非常大的激活值的内存占用,使得在训练过程中使用重算或者 offload 成为必要,同时也进一步加剧了训练过程中各个迭代步间内存占用的不均衡。对于流水线并行,处理包含超长序列的迭代步的时候,更倾向于使用更小的微批次数量,降低了流水线并行的效率。


二、论文成果


图2.png

ChunkFlow 整体的工作流程


在每个 iteration 开始采样的到一批训练样本后,通过将短序列拼接、长序列切分,ChunkFlow 将数据重新构建成以 ChunkSize 为单位的训练样本。在训练过程中为了维持计算的正确性和显存控制,ChunkFlow 采用了状态感知的调度机制。


ChunkFlow 针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制。我们期望训练过程中的内存需求能够与我们设定的固定的 ChunkSize 成正比,解决在变长数据和超长数据集训练过程中不稳定的内存占用和 GPU 利用率低下的问题。ChunkFlow 重新组织了数据,将短的训练数据做拼接,长的训练数据做切分,把变长的训练数据重新组织成以 ChunkSize 为大小的形式。


如下图所示,Algorithm 1 展现了训练 Chunk 构建的过程。

图3.png

对于拼接的序列,其计算的正确性可以通过注意力掩码来保证,但是对于被切分到各个 Chunk 的长序列,由于语言模型中注意力机制的因果特性,我们需要仔细的按照顺序去维持计算正确性。为此,我们对于这些相互依赖的 Chunk 提出了一套调度机制。如下图 Algorithm 2 所展示,这个调度机制可以根据内存需求,通过使用重算等显存优化方式调整相互依赖 Chunk 计算过程中的显存问题。


图4.png

下图展示了 Chunk 的调度机制,包含独立的 Chunk 和相互依赖 Chunk 处理流程,以及不同显存预算下的策略选择。


图5.png


通过 ChunkFlow 的计算机制,我们能够的到更均衡的流水线切片的处理时间,从而大幅降低流水线并行中的空泡率。同时,由于对长数据的切分,ChunkFlow 增加了流水线并行中的微批次数量,进一步提升了流水线并行的性能。


图6.png

三、实验数据


我们在多种尺寸的 Qwen2.5 系列模型中分别做了文本长度为32K和256K的端到端性能测试,下图展示了 ChunkFlow 相较于 Megatron-LM,训练的端到端性能有最高4.53倍的提升


图7.png

同时,我们测试了不同 ChunkSize 的设定对训练过程中显存侧的影响,如下图,ChunkFlow 可以做到可控的峰值显存占用,使得训练所需显存和预设的 ChunkSize 相关而不是与训练数据中的最长序列相关,大大提升了训练过程中的鲁棒性。


图8.png

目前,ChunkFlow 作为统一的解决方案支撑着全系 Qwen 模型的 SFT 任务和长序列 CPT 任务,并在大量的业务上带来2X+的性能收益,为 Qwen 业务节省可观的 GPU 成本。


四、更多论文相关信息


  • 论文标题:

Efficient Long Context Fine-tuning with Chunk Flow


  • 论文作者:

Xiulong Yuan, Hongtao Xu, Wenting Shen, Ang Wang, Xiafei Qiu, Jie Zhang, Yuqiong Liu, Bowen Yu, Junyang Lin, Mingzhen Li, Weile Jia, Yong Li, Wei Lin


  • 论文链接:

https://arxiv.org/pdf/2503.02356

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
3月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
406 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
3月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
913 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
4月前
|
存储 资源调度 并行计算
# Qwen3-8B 与 Qwen3-14B 的 TTFT 性能对比与底层原理详解
通义千问Qwen3系列是通义实验室2025年推出的最新大模型,包含多种参数版本,其中Qwen3-8B与Qwen3-14B均支持32K token上下文。Qwen3-8B参数量较小,响应更快,适合低延迟交互;Qwen3-14B参数更多,推理更强,适用于复杂任务。两者在TTFT、架构优化、量化技术及部署方案上各有侧重,满足多样应用场景需求。
1926 10
|
2月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
287 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
2月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
204 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
|
4月前
|
弹性计算 关系型数据库 API
自建Dify平台与PAI EAS LLM大模型
本文介绍了如何使用阿里云计算巢(ECS)一键部署Dify,并在PAI EAS上搭建LLM、Embedding及重排序模型,实现知识库支持的RAG应用。内容涵盖Dify初始化、PAI模型部署、API配置及RAG知识检索设置。
自建Dify平台与PAI EAS LLM大模型
|
2月前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
331 3
|
4月前
|
机器学习/深度学习 数据采集 人工智能
微调之后还能做什么?大模型后训练全链路技术解析
本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南,适合希望深入了解并应用这些技术的开发者。
730 18
微调之后还能做什么?大模型后训练全链路技术解析

相关产品

  • 人工智能平台 PAI
  • 下一篇
    开通oss服务