大模型训练常见通信源语解释

简介: 本文总结了在大模型分布式训练中常用的通信原语,包括一对多操作(Broadcast、Scatter)、多对一操作(Gather、Reduce)以及多对多操作(AllGather、AllReduce、ReduceScatter、All-To-All)。这些操作在模型并行和数据并行场景中起到关键作用,如参数初始化、数据切分与汇聚、规约运算等。通过详细介绍每种通信方式的功能与应用场景,帮助理解分布式训练中的数据交互机制。

背景:最近在对ctr场景MMOE结构分布式训练过程中发现对很多通信源语不是很了解,查阅了一些资料将目前常用的一些通信源语进行了总结,欢迎大家批评指正。

目前大模型分布式训练里面主要涉及到的通信源于有BroadcastScatterGatherReduce,这四种操作实现的功能通常是一对多或多对一的数据通信操作。实现多对多通信操作,则得通过AllGather、AllReduce、ReduceScatterAll-To-All

屏幕截图 2025-05-27 143737.png

Scatter操作:一种一对多操作,主要是将主节点数据分成若干份发送到不同的work节点,数据有切分与gather是逆向操作。主要应用场景是在对进行模型进行分布式并行训练过程中,需要将模型拆分成若干份并放到不同的卡上,该操作可通过scatter实现。

Gather操作:一种多对一操作,主要是将若干个节点的数据汇聚到主节点,与scatter是逆向操作。主要应用场景是在ReduceScatter组合里的 Scatter操作,这个在后面介绍ReduceScatter时候介绍。

Reduce操作:一种多对一操作,主要是将若干个节点的数据规约运算到一个主节点上,常用的规约操作符有:求累加和SUM、求累乘积PROD、求最大值MAX、求最小值MIN、逻辑与 LAND、按位与BAND、逻辑或LOR、按位或BOR、逻辑异或LXOR、按位异或BOXR、求最大值和最小大的位置MAXLOC、求最小值和最小值的位置MINLOC等,这些规约运算也需要加速卡支持对应的算子才能生效(图中是求和)。

Broadcast操作:一种一对多操作,实现一对多的传输,将root节点的数据广播到其他rank。应用场景一个是数据并行的参数初始化,确保每张卡上的初始参数是一致的。另一个场景是在allReduce实现里的会先通过broadcast操作后再进行 reduce。还有一个应用场景是在分布式训练parameter server 参数服务器结构里的 master节点 broadcast 数据到worker节点,再从worker节点reduce数据回master节点里的broadcast操作。

屏幕截图 2025-05-27 161825.png

AllReduce操作:多对多的通信原语,在集群中的每一个节点上都执行 Reduce 原语(也可以理解为单节点的 reduce + broadcast,也等价于reducescatter + allgather)。

ReduceScatter操作:多对多的通信原语,将数据在分片基础上进行规约,可以理解为 reduce + scatter。

AllGather操作:Allgather操作是将多个设备上的数据进行聚合然后同步到多个设备上,该操作可通过Gather+Broadcast操作实现,该操作与ReduceScatter互为反向操作。该操作可以被用在模型并行中,这是因为模型并行里前向计算过程中需要对所有参数全同步,需要用allgather把模型并行里将切分到不同的卡上的参数全同步到一张卡上才能进行前向计算。该操作相当于单节点的 gather+broadcast。

All-To-All操作:多对多的通信原语,对分布式数据的全收集,但是不同节点收集的维度不同,相当于进行了转置。

目录
打赏
0
2
2
0
88
分享
相关文章
ICLR 2025 | EDiT:一种基于 Local SGD 策略的大模型高效分布式训练方法
蚂蚁 AI Infra 团队在深度学习最核心之一的训练框架方向上持续投入与创新,实现了提升资源利用率、加速训练、提升训练稳定性等目标。我们提出的 EDiT 方法,即为其中一项工作。
DeepSeek-R1技术突破:纯RL训练竟能激发大模型"反思"能力?
仅通过强化学习(RL)训练,无需监督微调(SFT),就能让大模型自发产生带有反思的思维链(long CoT)。这一发现颠覆了此前行业对模型训练范式的认知。
80 3
AI大模型训练管理工具:千亿参数时代的指挥中枢
本内容揭示了大模型训练中三大核心挑战:实验复现难、资源利用率低、合规风险高,并提出“三维控制塔”解决方案,涵盖实验管理、资源调度与合规追踪。推荐Immuta + 板栗看板等工具组合助力不同规模团队实现高效、合规、低成本的AI训练。
S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现
选择性自我监督微调(S3FT)是一种创新的大语言模型微调方法,通过语义等价性判断器识别模型生成的正确响应,并结合标准答案优化模型。相比传统监督微调,S3FT在特定任务上表现更优,显著提升跨域泛化能力,有效缓解灾难性遗忘问题。实验结果显示,S3FT在多个基准测试中表现出色,尤其在阅读理解和领域外任务上优势明显。
159 70
S3FT选择性自监督微调:通过智能选择训练样本提升大模型整体表现
Qwen3 X ModelScope工具链: 飞速训练 + 全面评测
Qwen于近日发布了Qwen3系列模型,包含了各个不同规格的Dense模型和MoE模型。开源版本中,Dense模型基本沿用了之前的模型结构,差别之处在于对于Q和K两个tensor增加了RMSNorm;MoE模型去掉了公共Expert,其他结构基本与前一致。在模型大小上,涵盖了从0.6B到32B(Dense)和235B(MoE)不同的尺寸。
339 15
PAI训练服务:云上大模型训练新篇章
本文介绍了通用AI时代下的新训练方法及PAI平台的优化。随着大模型时代的到来,算力需求激增,硬件和网络通信成为瓶颈。PAI平台通过自动容错、3D健康检测等技术确保训练稳定性;通过资源配额、智能调度等提高性价比;并推出PAI-TorchAcc和PAI-ChatLearn两大引擎,分别实现高效训练加速和灵活的对齐训练,显著提升训练性能与效果。这些改进解决了大规模AI训练中的关键问题,提升了效率和稳定性。
基于Torch,测Qwen 3B训练的精度对比。
基于Torch,测Qwen 3B训练的精度对比。
大模型存储的 “最后一公里” :蚂蚁大模型存储加速系统 PCache 如何解决万亿参数训练难题?
本文尝试通过当前学术和工业界在大模型存储领域的关注点和相关工作,并结合蚂蚁大模型训练场景实际的需求和问题,来介绍蚂蚁是如何在多云环境里构建一套具备高可用性、高性能以及低成本的云原生 AI 存储加速系统 PCache;并通过该存储方案在蚂蚁支持了百亿文件规模的多模态和万亿参数的 MOE 训练任务。
MT-MegatronLM:国产训练框架逆袭!三合一并行+FP8黑科技,大模型训练效率暴涨200%
MT-MegatronLM 是摩尔线程推出的面向全功能 GPU 的开源混合并行训练框架,支持多种模型架构和高效混合并行训练,显著提升 GPU 集群的算力利用率。
287 18

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问