哈希极化、拓扑盲点与拥塞抖动：主流端网协同方案如何缓解万卡集群通信瓶颈？

2025-11-07 869

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 随着大模型参数规模迈向万亿级，万卡乃至十万卡 GPU 集群正成为 AI 训练基础设施的标配，而万卡集群三大通信瓶颈——哈希极化、拓扑盲点与拥塞抖动，对网络架构提出了前所未有的挑战。本文基于主流互联网大厂的公开实践，深入剖析超大规模集群中端网协同架构的设计思路，并探讨面向 MoE 与 DeepSeek 等新型模型的下一代 AI 网络演进方向。

一、万卡集群的网络挑战

随着AI大模型参数规模从千亿向万亿发展，单独的计算芯片和存储芯片已无法满足AI大模型对参数量和计算量的需求，成为了制约 AI 技术发展的“算力墙”和“存储墙”两大瓶颈，那么如何构建适配大模型算力的高性能网络，突破现有Scale-Out架构的瓶颈，已成为智算时代亟待解决的关键技术难题。

二、AI infra基础设施核心组件

为应对上述挑战，某主流互联网大厂提出的多轨道和端网协同优化方案。

2.1 多轨道（Multi-Rail）网络架构

训练网络架构的两大核心亮点——高带宽、多轨道：

图1：多轨道集群设计

①　服务器接入层面：每个服务器均配有 8 个端口速率为 400 Gbit/s 且支持基于融合以太网远端内存直接访问技术（RoCE）的网卡（NIC）。每个双端口网卡通过同轨道的Leaf层交换机与其他服务器的同序号网卡实现互联。如图1所示，第一台服务器的NIC1到第二台服务器的NIC1的流量通过Rail 1交换机传输。

②　经典的Clos架构：通过二层（Spine）交换机实现一层（Leaf）交换机的全互联，最终形成一个两层的多轨道网络拓扑。

③　无损网络机制：网卡支持 RoCEv2 协议，网卡支持RoCEv2 协议，并且使能优先级流量控制（PFC）和动态水线的数据中心拥塞控制机制（DCQCN）实现无损网络。

2.2 TCCL和GOR端网协同

端网协同两大核心组件：运行在 GPU 服务器上的拓扑感知集合通信库（TCCL）和管理 RoCE 网络中流量路由的全局优化路由器（GOR）。

图2：TCCL和GOR的端网协同

TCCL：部署于GPU服务器端，实时感知LLM训练的并行策略与网络的物理拓扑，在通信发生前，进行精细化的静态路径规划即路径预规划。

GOR ：作为全局网络拓扑的集中式控制器，实时监控全网状态，负责动态调整流量路径，主动规避拥塞和处理故障。

2.2.1 TCCL：端侧的静态优化与智能执行

当前主流集合通信库（如NCCL）依赖默认的输入服务器顺序决定集合通信路径规划的局限性，TCCL做了三大核心优化：

1. 基于拓扑的路径规划：TCCL从GOR获取全局网络拓扑信息，在规划AllReduce等集合通信操作时，严格遵循以下原则：

① 轨道亲和性（Rail Affinity）与Block亲和性原则；

② 在同一轨道和同一Block内通信优先；

③ 最大化本地流量，最小化跨Spine核心层的流量。

2. 异构网络并行通信：鉴于NVLink和RoCE网络的传输延迟分别为200 ns和4μs，整个集合通信网络的通信受限于RoCE网络。因此，TCCL专门设计了动态滑动窗口机制TCCL，实时识别服务器内部的NVLink通道和外部的RoCE网络通道的带宽和延迟，在在集合通信粒度上动态切片TP AllReduce，将每个GPU上要传输的消息分为两个部分，分别用于NVLink通道和RoCE网络通道，实现两个通道之间的动态协同，从而最大化的释放和压榨可用带宽资源。

3. 哈希正交与冲突避免：为了从源头彻底消除ECMP哈希冲突，在建立RoCE QP（Queue Pair）连接前，TCCL利用从GOR上获取交换机的精确哈希算法模型，TCCL会主动为并行的多个大象流计算并分配一组能实现哈希正交（Hash Orthogonal）的源端口号，从而确保经过ECMP哈希计算后的流量，能被均匀地映射到不同的物理链路上。

2.2.2 GOR：全局的动态感知与智能调度

GOR是如何将一次完整的“感知-决策-执行”调度周期压缩到一个LLM训练迭代（约10-30秒）内：

1. 实时监控与毫秒级告警：依赖ECN（显式拥塞通知）进行拥塞检测，通过三级告警阈值实现毫秒级识别。

2. 拥塞流识别与定位：一旦触发告警，GOR联动sFlow等工具，对拥塞端口的流量进行采样，通过分析数据包的五元组信息，快速、精准地识别Top-N大象流。

3. 智能重路由决策：

○路径探测：查询全局有效可达网络拓扑图，结合Telemetry实时采集的链路负载，挑选所有备选ECMP路径。

○沙盘推演：利用内置的ECMP哈希算法模拟器进行仿真叠加流量后的效果。

○递归验证：确保新路径上所有链路叠加新增流量后链路负载控制在安全阈值（如75%）以下，避免人为产生二次拥塞。

4. 路径更新无感知：GOR通过控制通道向源服务器的TCCL下达指令更新特定流的源端口，确保TCCL在下一次传输时使用新端口，流量被无感知地切换至新路径上，整个过程在一次训练迭代内闭环。

2.2.3 GOR与TCCL协同工作机制推演

1. 拥塞感知与告警：GOR控制器基于ECN标记数实时监控，触发毫秒级告警。

2. 拥塞识别与定位：联动 sFlow 采样协同机制，基于五元组精准定位识别大象流

3. 最优路径计算与沙盘推演：探测备选路径，模拟器仿真，递归验证。

4. 路径更新与流量调度：GOR通过控制通道向源端服务器的TCCL下发指令，TCCL 修改源端口引导流量至新路径上。

三、架构横向对比与行业实践

2.1 业界主流互联网大厂大模型训练网络架构对比

方案	核心思路
阿里 HPN	“非堆叠双TOR”和“双平面”+“单层千卡&两层万卡”+ μFab 智能网卡限速 + HPCC 端侧拥塞控制
百度百舸	多轨道 CLOS + 自适应路由（AR） + DDC 分布式控制器
腾讯星脉	多轨道 + TCCL/GOR 端网协同 + 哈希正交
Meta	AI模型（推荐模型DLRM）+自研AI芯片（MTIA）+ 网络协同设计 + 自动化调优框架 + 高精度通信调度

2.2 面向未来的挑战

随着AI集群规模向十万卡乃至百万卡级别演进，以及以MoE（Mixture of Experts）和DeepSeek为代表的新型模型架构的出现，引入了密集All-to-All通信范式，极大地增加了网络流量的复杂性和不可预测性。在此背景下，传统基于静态拓扑与事后拥塞控制的网络架构已难以为继。未来的超大规模 AI 基础设施亟需构建一种实时感知、全局协同、闭环自适应的新一代通信体系，这一趋势也正推动 RDMA、RoCE 与可编程数据平面（如 P4 交换芯片、DPU/IPU）的深度协同，为构建弹性、智能、高效的 AI 网络底座提供可能。