哈希极化、拓扑盲点与拥塞抖动:主流端网协同方案如何缓解万卡集群通信瓶颈?

简介: 随着大模型参数规模迈向万亿级,万卡乃至十万卡 GPU 集群正成为 AI 训练基础设施的标配,而万卡集群三大通信瓶颈——哈希极化、拓扑盲点与拥塞抖动,对网络架构提出了前所未有的挑战。本文基于主流互联网大厂的公开实践,深入剖析超大规模集群中端网协同架构的设计思路,并探讨面向 MoE 与 DeepSeek 等新型模型的下一代 AI 网络演进方向。

一、万卡集群的网络挑战

随着AI大模型参数规模从千亿向万亿发展,单独的计算芯片和存储芯片已无法满足AI大模型对参数量和计算量的需求,成为了制约 AI 技术发展的“算力墙”和“存储墙”两大瓶颈,那么如何构建适配大模型算力的高性能网络,突破现有Scale-Out架构的瓶颈,已成为智算时代亟待解决的关键技术难题。

二、AI infra基础设施核心组件

为应对上述挑战,某主流互联网大厂提出的多轨道和端网协同优化方案

2.1 多轨道(Multi-Rail)网络架构

训练网络架构的两大核心亮点——高带宽、多轨道

image.png

图1:多轨道集群设计

① 服务器接入层面:每个服务器均配有 8 个端口速率为 400 Gbit/s 且支持基于融合以太网远端内存直接访问技术 (RoCE) 的网卡 (NIC)。每个双端口网卡通过同轨道的Leaf层交换机与其他服务器的同序号网卡实现互联。如图1所示,第一台服务器的NIC1到第二台服务器的NIC1的流量通过Rail 1交换机传输。

② 经典的Clos架构:通过二层 (Spine) 交换机实现一层(Leaf) 交换机的全互联,最终形成一个两层的多轨道网络拓扑。

③ 无损网络机制网卡支持 RoCEv2 协议,网卡支持RoCEv2 协议,并且使能优先级流量控制 (PFC)和动态水线的数据中心拥塞控制机制(DCQCN)实现无损网络。

2.2 TCCL和GOR端网协同

端网协同两大核心组件:运行在 GPU 服务器上的拓扑感知集合通信库 (TCCL)和管理 RoCE 网络中流量路由的全局优化路由器 (GOR)。

image.png

图2:TCCL和GOR的端网协同

 TCCL:部署于GPU服务器端,实时感知LLM训练的并行策略与网络的物理拓扑,在通信发生前,进行精细化的静态路径规划即路径预规划。

 GOR :作为全局网络拓扑的集中式控制器,实时监控全网状态,负责动态调整流量路径,主动规避拥塞和处理故障。

2.2.1 TCCL:端侧的静态优化与智能执行

当前主流集合通信库(如NCCL)依赖默认的输入服务器顺序决定集合通信路径规划的局限性,TCCL做了三大核心优化:

1. 基于拓扑的路径规划:TCCL从GOR获取全局网络拓扑信息,在规划AllReduce等集合通信操作时,严格遵循以下原则:

轨道亲和性(Rail Affinity)与Block亲和性原则;

在同一轨道和同一Block内通信优先;

最大化本地流量,最小化跨Spine核心层的流量。

2. 异构网络并行通信鉴于NVLink和RoCE网络的传输延迟分别为200 ns和4μs,整个集合通信网络的通信受限于RoCE网络。因此,TCCL专门设计了动态滑动窗口机制TCCL实时识别服务器内部的NVLink通道和外部的RoCE网络通道的带宽和延迟,在在集合通信粒度上动态切片TP  AllReduce,将每个GPU上要传输的消息分为两个部分,分别用于NVLink通道和RoCE网络通道,实现两个通道之间的动态协同,从而最大化的释放和压榨可用带宽资源。

3. 哈希正交与冲突避免:为了从源头彻底消除ECMP哈希冲突,在建立RoCE QP(Queue Pair)连接前TCCL利用从GOR上获取交换机的精确哈希算法模型,TCCL会主动为并行的多个大象流计算并分配一组能实现哈希正交(Hash Orthogonal)的源端口号从而确保经过ECMP哈希计算后的流量,能被均匀地映射到不同的物理链路上

2.2.2 GOR:全局的动态感知与智能调度

GOR是如何将一次完整的“感知-决策-执行”调度周期压缩到一个LLM训练迭代(约10-30秒)内:

1. 实时监控与毫秒级告警:依赖ECN(显式拥塞通知)进行拥塞检测,通过三级告警阈值实现毫秒级识别。

2. 拥塞流识别与定位:一旦触发告警,GOR联动sFlow等工具,对拥塞端口的流量进行采样,通过分析数据包的五元组信息,快速、精准地识别Top-N大象流。

3. 智能重路由决策

路径探测:查询全局有效可达网络拓扑图,结合Telemetry实时采集的链路负载,挑选所有备选ECMP路径

沙盘推演:利用内置的ECMP哈希算法模拟器进行仿真叠加流量后的效果

递归验证:确保新路径上所有链路叠加新增流量后链路负载控制在安全阈值(如75%)以下,避免人为产生二次拥塞。

4. 路径更新无感知:GOR通过控制通道向源服务器的TCCL下达指令更新特定流的源端口确保TCCL在下一次传输时使用新端口,流量被无感知地切换至新路径上,整个过程在一次训练迭代内闭环。

2.2.3 GOR与TCCL协同工作机制推演

1. 拥塞感知与告警:GOR控制器基于ECN标记数实时监控,触发毫秒级告警

2. 拥塞识别与定位联动 sFlow 采样协同机制,基于五元组精准定位识别大象流

3. 最优路径计算与沙盘推演探测备选路径,模拟器仿真,递归验证

4. 路径更新与流量调度:GOR通过控制通道向源端服务器的TCCL下发指令TCCL 修改源端口引导流量至新路径上。

三、架构横向对比与行业实践

2.1 业界主流互联网大厂大模型训练网络架构对比

方案

核心思路

阿里 HPN

“非堆叠双TOR”和“双平面”+“单层千卡&两层万卡”+ μFab 智能网卡限速 + HPCC 端侧拥塞控制

百度百舸

多轨道 CLOS + 自适应路由(AR) + DDC 分布式控制器

腾讯星脉

多轨道 + TCCL/GOR 端网协同 + 哈希正交

Meta

AI模型(推荐模型DLRM)+自研AI芯片(MTIA)+ 网络协同设计 + 自动化调优框架 + 高精度通信调度

 

2.2 面向未来的挑战

随着AI集群规模向十万卡乃至百万卡级别演进,以及以MoE(Mixture of Experts)和DeepSeek为代表的新型模型架构的出现引入密集All-to-All通信范式,极大地增加了网络流量的复杂性和不可预测性。在此背景下,传统基于静态拓扑与事后拥塞控制的网络架构已难以为继。未来的超大规模 AI 基础设施亟需构建一种实时感知、全局协同、闭环自适应的新一代通信体系,这一趋势也正推动 RDMA、RoCE 与可编程数据平面(如 P4 交换芯片、DPU/IPU)的深度协同,为构建弹性、智能、高效的 AI 网络底座提供可能。

相关文章
|
3月前
|
人工智能 安全 架构师
2025云栖大会 | 阿里云网络技术Session主题资料和视频回放归档
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
575 2
|
27天前
|
存储 弹性计算 容灾
阿里云服务器ECS自定义购买流程:超详细新手入门教程
本文详细介绍阿里云服务器ECS自定义购买全流程,涵盖付费模式、地域选择、网络配置、实例规格、镜像系统、存储、公网IP、带宽计费及安全组设置等关键步骤,适合新手入门参考,助你轻松完成云服务器选购与部署。
262 121
|
数据可视化 Go 数据库
性能分析神器:pprof命令详解与实战
性能分析神器:pprof命令详解与实战
1740 0
性能分析神器:pprof命令详解与实战
|
6月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
6天前
|
安全 Unix API
告别混乱时间处理:Python中time与datetime模块的实用选择
告别混乱时间处理:Python中time与datetime模块的实用选择
222 126
|
6天前
|
开发者 Python
Python 小技巧:你可能没完全掌握的 f-string 高级用法
Python 小技巧:你可能没完全掌握的 f-string 高级用法
203 132
|
Linux 网络安全 开发工具
centos7部署l2tp ipsec
1、查询操作系统版本 #cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core) 2、查询系统是否支持ppp,返回yes代表通过。 #modprobe ppp-compress-18 && echo yes 3、查询系统是否开启了tun,返回File descriptor in bad state代表通过。
8551 0
|
3月前
|
存储 SQL Prometheus
图文解析带你精通时序PromQL语法
[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。
819 10
|
8月前
|
人工智能 网络性能优化 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
阿里云在NSDI 2025会议上发表5篇主会论文,涵盖大模型训练网络故障诊断、仿真、性能优化及CDN流控算法等领域。其中,《Evolution of Aegis》提出两阶段演进路线,显著降低故障诊断时间;《SimAI》实现高精度大模型训练模拟;其他论文分别在CDN拥塞控制、GPU解耦推理和容器网络性能优化上取得突破。这些成果为AI大模型时代的云计算基础设施发展提供了重要支持。NSDI是计算机网络与系统研究领域的顶级会议,本次录取率仅12.5%。
|
4月前
|
人工智能 缓存 安全
阿里云发布《AI 原生应用架构白皮书》
阿里云联合阿里巴巴爱橙科技,共同发布《AI 原生应用架构白皮书》,围绕 AI 原生应用的 DevOps 全生命周期,从架构设计、技术选型、工程实践到运维优化,对概念和重难点进行系统的拆解,并尝试提供一些解题思路。白皮书覆盖 AI 原生应用的 11 大关键要素,获得 15 位业界专家联名推荐,来自 40 多位一线工程师实践心的,全书合计超 20w 字,分为 11 章。
2666 40