大模型训练八种核心通信源语原理与应用场景-开发者社区-阿里云

大模型训练常见通信源语解释

2025-05-30 1003

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文总结了在大模型分布式训练中常用的通信原语，包括一对多操作（Broadcast、Scatter）、多对一操作（Gather、Reduce）以及多对多操作（AllGather、AllReduce、ReduceScatter、All-To-All）。这些操作在模型并行和数据并行场景中起到关键作用，如参数初始化、数据切分与汇聚、规约运算等。通过详细介绍每种通信方式的功能与应用场景，帮助理解分布式训练中的数据交互机制。

背景：最近在对ctr场景的MMOE结构做分布式训练过程中发现对很多通信源语不是很了解，查阅了一些资料将目前常用的一些通信源语进行了总结，欢迎大家批评指正。

目前大模型分布式训练里面主要涉及到的通信源于有Broadcast、Scatter、Gather、Reduce，这四种操作实现的功能通常是一对多或多对一的数据通信操作。实现多对多通信操作，则得通过AllGather、AllReduce、ReduceScatter、All-To-All。

屏幕截图 2025-05-27 143737.png

Scatter操作：一种一对多操作，主要是将主节点数据分成若干份发送到不同的work节点，数据有切分与gather是逆向操作。主要应用场景是在对进行模型进行分布式并行训练过程中，需要将模型拆分成若干份并放到不同的卡上，该操作可通过scatter实现。

Gather操作:一种多对一操作，主要是将若干个节点的数据汇聚到主节点，与scatter是逆向操作。主要应用场景是在ReduceScatter组合里的 Scatter操作，这个在后面介绍ReduceScatter时候介绍。

Reduce操作:一种多对一操作，主要是将若干个节点的数据规约运算到一个主节点上，常用的规约操作符有：求累加和SUM、求累乘积PROD、求最大值MAX、求最小值MIN、逻辑与 LAND、按位与BAND、逻辑或LOR、按位或BOR、逻辑异或LXOR、按位异或BOXR、求最大值和最小大的位置MAXLOC、求最小值和最小值的位置MINLOC等，这些规约运算也需要加速卡支持对应的算子才能生效（图中是求和）。

Broadcast操作:一种一对多操作，实现一对多的传输，将root节点的数据广播到其他rank。应用场景一个是数据并行的参数初始化，确保每张卡上的初始参数是一致的。另一个场景是在allReduce实现里的会先通过broadcast操作后再进行 reduce。还有一个应用场景是在分布式训练parameter server 参数服务器结构里的 master节点 broadcast 数据到worker节点，再从worker节点reduce数据回master节点里的broadcast操作。

屏幕截图 2025-05-27 161825.png

AllReduce操作：多对多的通信原语，在集群中的每一个节点上都执行 Reduce 原语（也可以理解为单节点的 reduce + broadcast，也等价于reducescatter + allgather）。

ReduceScatter操作:多对多的通信原语，将数据在分片基础上进行规约，可以理解为 reduce + scatter。

AllGather操作:Allgather操作是将多个设备上的数据进行聚合然后同步到多个设备上，该操作可通过Gather+Broadcast操作实现，该操作与ReduceScatter互为反向操作。该操作可以被用在模型并行中，这是因为模型并行里前向计算过程中需要对所有参数全同步，需要用allgather把模型并行里将切分到不同的卡上的参数全同步到一张卡上才能进行前向计算。该操作相当于单节点的 gather+broadcast。

All-To-All操作:多对多的通信原语，对分布式数据的全收集，但是不同节点收集的维度不同，相当于进行了转置。

大模型训练常见通信源语解释

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大模型训练常见通信源语解释

热门文章

最新文章

相关课程

相关电子书

相关实验场景