大模型训练常见通信源语解释

简介: 本文总结了在大模型分布式训练中常用的通信原语,包括一对多操作(Broadcast、Scatter)、多对一操作(Gather、Reduce)以及多对多操作(AllGather、AllReduce、ReduceScatter、All-To-All)。这些操作在模型并行和数据并行场景中起到关键作用,如参数初始化、数据切分与汇聚、规约运算等。通过详细介绍每种通信方式的功能与应用场景,帮助理解分布式训练中的数据交互机制。

背景:最近在对ctr场景MMOE结构分布式训练过程中发现对很多通信源语不是很了解,查阅了一些资料将目前常用的一些通信源语进行了总结,欢迎大家批评指正。

目前大模型分布式训练里面主要涉及到的通信源于有BroadcastScatterGatherReduce,这四种操作实现的功能通常是一对多或多对一的数据通信操作。实现多对多通信操作,则得通过AllGather、AllReduce、ReduceScatterAll-To-All

屏幕截图 2025-05-27 143737.png

Scatter操作:一种一对多操作,主要是将主节点数据分成若干份发送到不同的work节点,数据有切分与gather是逆向操作。主要应用场景是在对进行模型进行分布式并行训练过程中,需要将模型拆分成若干份并放到不同的卡上,该操作可通过scatter实现。

Gather操作:一种多对一操作,主要是将若干个节点的数据汇聚到主节点,与scatter是逆向操作。主要应用场景是在ReduceScatter组合里的 Scatter操作,这个在后面介绍ReduceScatter时候介绍。

Reduce操作:一种多对一操作,主要是将若干个节点的数据规约运算到一个主节点上,常用的规约操作符有:求累加和SUM、求累乘积PROD、求最大值MAX、求最小值MIN、逻辑与 LAND、按位与BAND、逻辑或LOR、按位或BOR、逻辑异或LXOR、按位异或BOXR、求最大值和最小大的位置MAXLOC、求最小值和最小值的位置MINLOC等,这些规约运算也需要加速卡支持对应的算子才能生效(图中是求和)。

Broadcast操作:一种一对多操作,实现一对多的传输,将root节点的数据广播到其他rank。应用场景一个是数据并行的参数初始化,确保每张卡上的初始参数是一致的。另一个场景是在allReduce实现里的会先通过broadcast操作后再进行 reduce。还有一个应用场景是在分布式训练parameter server 参数服务器结构里的 master节点 broadcast 数据到worker节点,再从worker节点reduce数据回master节点里的broadcast操作。

屏幕截图 2025-05-27 161825.png

AllReduce操作:多对多的通信原语,在集群中的每一个节点上都执行 Reduce 原语(也可以理解为单节点的 reduce + broadcast,也等价于reducescatter + allgather)。

ReduceScatter操作:多对多的通信原语,将数据在分片基础上进行规约,可以理解为 reduce + scatter。

AllGather操作:Allgather操作是将多个设备上的数据进行聚合然后同步到多个设备上,该操作可通过Gather+Broadcast操作实现,该操作与ReduceScatter互为反向操作。该操作可以被用在模型并行中,这是因为模型并行里前向计算过程中需要对所有参数全同步,需要用allgather把模型并行里将切分到不同的卡上的参数全同步到一张卡上才能进行前向计算。该操作相当于单节点的 gather+broadcast。

All-To-All操作:多对多的通信原语,对分布式数据的全收集,但是不同节点收集的维度不同,相当于进行了转置。

相关文章
|
6月前
|
负载均衡 并行计算 异构计算
大模型训练推理优化(5): FlexLink —— NVLink 带宽无损提升27%
本期我们将介绍蚂蚁集团ASystem团队在大模型通信优化上的新工作FlexLink,旨在通过动态聚合多路通信(NVLink,PCIe,RDMA),在H800等典型硬件上将典型通信算子如(AllReduce, All Gather)吞吐提升最高达27%,尤其适合大模型长序列推理(Prefill阶段),及训练等通信密集的带宽bound场景。方案对精度无影响。
|
6月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1507 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
7月前
|
机器学习/深度学习 人工智能 测试技术
【ICML2025】大模型后训练性能4倍提升!阿里云PAI团队研究成果ChunkFlow中选
近日,阿里云 PAI 团队、通义实验室与中国科学院大学前沿交叉科学学院合作在机器学习顶级会议 ICML 2025 上发表论文 Efficient Long Context Fine-tuning with Chunk Flow。ChunkFlow 作为阿里云在变长和超长序列数据集上高效训练解决方案,针对处理变长和超长序列数据的性能问题,提出了以 Chunk 为中心的训练机制,支撑 Qwen 全系列模型的长序列续训练和微调任务,在阿里云内部的大量的业务上带来2倍以上的端到端性能收益,大大降低了训练消耗的 GPU 卡时。
|
8月前
|
人工智能 并行计算 持续交付
如何使用龙蜥衍生版KOS,2步实现大模型训练环境部署
大幅降低了用户开发和应用大模型的技术门槛。
|
5月前
|
机器学习/深度学习 算法 数据可视化
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
推理型大语言模型兴起,通过先思考再作答提升性能。本文介绍GRPO等强化学习算法,详解其原理并动手用Qwen2.5-3B训练推理模型,展示训练前后效果对比,揭示思维链生成的实现路径。
721 2
从零开始训练推理模型:GRPO+Unsloth改造Qwen实战指南
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
ICLR 2025 | EDiT:一种基于 Local SGD 策略的大模型高效分布式训练方法
蚂蚁 AI Infra 团队在深度学习最核心之一的训练框架方向上持续投入与创新,实现了提升资源利用率、加速训练、提升训练稳定性等目标。我们提出的 EDiT 方法,即为其中一项工作。
|
5月前
|
机器学习/深度学习 算法
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
本文介绍了一种改进的监督微调方法——Proximal Supervised Fine-Tuning (PSFT),旨在解决传统SFT易过拟合、泛化能力差及导致“熵坍塌”的问题。受PPO强化学习算法启发,PSFT通过引入参数更新的稳定性机制,防止模型在训练中变得过于确定,从而提升探索能力与后续强化学习阶段的表现。实验表明,PSFT在数学推理、模型对齐及泛化能力方面均优于传统SFT。
575 3
Proximal SFT:用PPO强化学习机制优化SFT,让大模型训练更稳定
|
7月前
|
机器学习/深度学习 数据采集 人工智能
微调之后还能做什么?大模型后训练全链路技术解析
本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南,适合希望深入了解并应用这些技术的开发者。
1679 18
微调之后还能做什么?大模型后训练全链路技术解析

热门文章

最新文章