哈希极化、拓扑盲点与拥塞抖动:主流端网协同方案如何缓解万卡集群通信瓶颈?

本文涉及的产品
全球加速 GA,每月750个小时 15CU
传统型负载均衡 CLB,每月750个小时 15LCU
应用型负载均衡 ALB,每月750个小时 15LCU
简介: 随着大模型参数规模迈向万亿级,万卡乃至十万卡 GPU 集群正成为 AI 训练基础设施的标配,而万卡集群三大通信瓶颈——哈希极化、拓扑盲点与拥塞抖动,对网络架构提出了前所未有的挑战。本文基于主流互联网大厂的公开实践,深入剖析超大规模集群中端网协同架构的设计思路,并探讨面向 MoE 与 DeepSeek 等新型模型的下一代 AI 网络演进方向。

一、万卡集群的网络挑战

随着AI大模型参数规模从千亿向万亿发展,单独的计算芯片和存储芯片已无法满足AI大模型对参数量和计算量的需求,成为了制约 AI 技术发展的“算力墙”和“存储墙”两大瓶颈,那么如何构建适配大模型算力的高性能网络,突破现有Scale-Out架构的瓶颈,已成为智算时代亟待解决的关键技术难题。

二、AI infra基础设施核心组件

为应对上述挑战,某主流互联网大厂提出的多轨道和端网协同优化方案

2.1 多轨道(Multi-Rail)网络架构

训练网络架构的两大核心亮点——高带宽、多轨道

image.png

图1:多轨道集群设计

① 服务器接入层面:每个服务器均配有 8 个端口速率为 400 Gbit/s 且支持基于融合以太网远端内存直接访问技术 (RoCE) 的网卡 (NIC)。每个双端口网卡通过同轨道的Leaf层交换机与其他服务器的同序号网卡实现互联。如图1所示,第一台服务器的NIC1到第二台服务器的NIC1的流量通过Rail 1交换机传输。

② 经典的Clos架构:通过二层 (Spine) 交换机实现一层(Leaf) 交换机的全互联,最终形成一个两层的多轨道网络拓扑。

③ 无损网络机制网卡支持 RoCEv2 协议,网卡支持RoCEv2 协议,并且使能优先级流量控制 (PFC)和动态水线的数据中心拥塞控制机制(DCQCN)实现无损网络。

2.2 TCCL和GOR端网协同

端网协同两大核心组件:运行在 GPU 服务器上的拓扑感知集合通信库 (TCCL)和管理 RoCE 网络中流量路由的全局优化路由器 (GOR)。

image.png

图2:TCCL和GOR的端网协同

 TCCL:部署于GPU服务器端,实时感知LLM训练的并行策略与网络的物理拓扑,在通信发生前,进行精细化的静态路径规划即路径预规划。

 GOR :作为全局网络拓扑的集中式控制器,实时监控全网状态,负责动态调整流量路径,主动规避拥塞和处理故障。

2.2.1 TCCL:端侧的静态优化与智能执行

当前主流集合通信库(如NCCL)依赖默认的输入服务器顺序决定集合通信路径规划的局限性,TCCL做了三大核心优化:

1. 基于拓扑的路径规划:TCCL从GOR获取全局网络拓扑信息,在规划AllReduce等集合通信操作时,严格遵循以下原则:

轨道亲和性(Rail Affinity)与Block亲和性原则;

在同一轨道和同一Block内通信优先;

最大化本地流量,最小化跨Spine核心层的流量。

2. 异构网络并行通信鉴于NVLink和RoCE网络的传输延迟分别为200 ns和4μs,整个集合通信网络的通信受限于RoCE网络。因此,TCCL专门设计了动态滑动窗口机制TCCL实时识别服务器内部的NVLink通道和外部的RoCE网络通道的带宽和延迟,在在集合通信粒度上动态切片TP  AllReduce,将每个GPU上要传输的消息分为两个部分,分别用于NVLink通道和RoCE网络通道,实现两个通道之间的动态协同,从而最大化的释放和压榨可用带宽资源。

3. 哈希正交与冲突避免:为了从源头彻底消除ECMP哈希冲突,在建立RoCE QP(Queue Pair)连接前TCCL利用从GOR上获取交换机的精确哈希算法模型,TCCL会主动为并行的多个大象流计算并分配一组能实现哈希正交(Hash Orthogonal)的源端口号从而确保经过ECMP哈希计算后的流量,能被均匀地映射到不同的物理链路上

2.2.2 GOR:全局的动态感知与智能调度

GOR是如何将一次完整的“感知-决策-执行”调度周期压缩到一个LLM训练迭代(约10-30秒)内:

1. 实时监控与毫秒级告警:依赖ECN(显式拥塞通知)进行拥塞检测,通过三级告警阈值实现毫秒级识别。

2. 拥塞流识别与定位:一旦触发告警,GOR联动sFlow等工具,对拥塞端口的流量进行采样,通过分析数据包的五元组信息,快速、精准地识别Top-N大象流。

3. 智能重路由决策

路径探测:查询全局有效可达网络拓扑图,结合Telemetry实时采集的链路负载,挑选所有备选ECMP路径

沙盘推演:利用内置的ECMP哈希算法模拟器进行仿真叠加流量后的效果

递归验证:确保新路径上所有链路叠加新增流量后链路负载控制在安全阈值(如75%)以下,避免人为产生二次拥塞。

4. 路径更新无感知:GOR通过控制通道向源服务器的TCCL下达指令更新特定流的源端口确保TCCL在下一次传输时使用新端口,流量被无感知地切换至新路径上,整个过程在一次训练迭代内闭环。

2.2.3 GOR与TCCL协同工作机制推演

1. 拥塞感知与告警:GOR控制器基于ECN标记数实时监控,触发毫秒级告警

2. 拥塞识别与定位联动 sFlow 采样协同机制,基于五元组精准定位识别大象流

3. 最优路径计算与沙盘推演探测备选路径,模拟器仿真,递归验证

4. 路径更新与流量调度:GOR通过控制通道向源端服务器的TCCL下发指令TCCL 修改源端口引导流量至新路径上。

三、架构横向对比与行业实践

2.1 业界主流互联网大厂大模型训练网络架构对比

方案

核心思路

阿里 HPN

“非堆叠双TOR”和“双平面”+“单层千卡&两层万卡”+ μFab 智能网卡限速 + HPCC 端侧拥塞控制

百度百舸

多轨道 CLOS + 自适应路由(AR) + DDC 分布式控制器

腾讯星脉

多轨道 + TCCL/GOR 端网协同 + 哈希正交

Meta

AI模型(推荐模型DLRM)+自研AI芯片(MTIA)+ 网络协同设计 + 自动化调优框架 + 高精度通信调度

 

2.2 面向未来的挑战

随着AI集群规模向十万卡乃至百万卡级别演进,以及以MoE(Mixture of Experts)和DeepSeek为代表的新型模型架构的出现引入密集All-to-All通信范式,极大地增加了网络流量的复杂性和不可预测性。在此背景下,传统基于静态拓扑与事后拥塞控制的网络架构已难以为继。未来的超大规模 AI 基础设施亟需构建一种实时感知、全局协同、闭环自适应的新一代通信体系,这一趋势也正推动 RDMA、RoCE 与可编程数据平面(如 P4 交换芯片、DPU/IPU)的深度协同,为构建弹性、智能、高效的 AI 网络底座提供可能。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
AI 大模型时代的网络架构演进
​2025 年 7 月 26 日,第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)在甘肃兰州隆重召开。大会以“算力网:新质生产力背景下的分布式系统”为主题,吸引了来自学术界与产业界的 1200 余位专家学者、行业代表齐聚一堂,共探分布式计算与算力网络的前沿技术与未来趋势。
|
人工智能 Cloud Native 安全
【AI原生研讨会】阿里云邀您共探企业 AI 原生应用架构升级实践
阿里云邀您参加于11月28日在北京阿里中心举办的“企业AI原生应用架构升级”研讨会,期待与您一起探索如何为企业构建真正可信赖、可扩展、可进化的下一代 AI 应用体系。现场席位有限,立即报名!
【AI原生研讨会】阿里云邀您共探企业 AI 原生应用架构升级实践
|
2月前
|
人工智能 安全 架构师
2025云栖大会 | 阿里云网络技术Session主题资料和视频回放归档
2025年9月24日-26日,杭州,一年一度的云栖大会如期而至;阿里云飞天洛神云网络作为阿里云计算的连接底座,是飞天云操作系统的核心组件,致力于为上云企业提供高可靠、高性能、高弹性、智能的连接服务。本次云栖,云网络产品线也带来全系列产品升级,以及创新技术重磅解读,围绕增强确定性、提效自动化、深耕智能化和敏捷全球化带来技术、产品和服务升级,以及全新的云网络产品生态合作计划发布。
456 2
|
安全 JavaScript Docker
Agent Skills技术协议与开源实现,让大模型拥有“即插即用”技能
Anthropic推出Agent Skills协议,通过模块化技能封装提升大模型智能体的专业能力。ModelScope开源项目MS-Agent已实现该协议,支持技能的动态加载、自主执行与安全沙箱运行,推动智能体能力的可组合与可扩展发展。
480 28
|
25天前
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
|
2月前
|
存储 SQL Prometheus
图文解析带你精通时序PromQL语法
[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。
646 10
|
27天前
|
运维 监控 数据可视化
别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香
深夜告警、业务暴跌、全员背锅?一次支付故障暴露传统监控盲区。我们通过业务观测,将技术指标转化为老板听得懂的“人话”,实现从被动救火到主动洞察的跨越。让技术团队不再跪着查日志,而是站着驱动业务增长。
别让运维跪着查日志了!给老板看的“业务观测”大盘才是真香
|
17天前
|
存储 数据采集 人工智能
最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话
随着人工智能技术的不断发展,虚拟角色不再只是冰冷的对话机器,而是能够承载历史人物的气质、知识体系乃至精神风貌的“数字化身”。今天,我们将完整揭秘如何基于Qwen3-8B大模型,借助LLaMA-Factory Online平台,打造一个沉浸式的“苏东坡数字分身”,让前沿技术为文化传承注入新的活力。
304 9
最佳实践丨让苏东坡“复活”!我用Qwen3-8B实现了与千古文豪的跨时空对话
|
5天前
|
人工智能 自然语言处理
构建AI智能体:四十一、大模型思维链提示工程:技术原理与行业应用案例分析
本文介绍了思维链提示技术及其应用。思维链提示是一种引导大模型进行逐步推理的提示工程技术,通过结构化提示模拟人类解决问题的逻辑分析路径,使模型能够显式化中间推理步骤,从而提升推理准确性与可解释性。文章详细阐述了思维链提示的关键特征(步骤可解释性、逻辑链条完整性、问题分解能力)和工作原理,并通过数学推理、逻辑分析和多轮复杂问题三个案例展示了其具体应用流程。该技术在教育辅导、商业决策和科研分析等领域具有重要价值,能够突破传统大模型的黑箱推理瓶颈,提高AI系统的决策透明度和可靠性。
115 13
|
24天前
|
人工智能 自然语言处理 资源调度
蚂蚁百宝箱“一箱搞定”会展智能,「桐小乌」为乌镇互联网大会提供全天候一站式向导服务
2025世界互联网大会·乌镇峰会圆满落幕,蚂蚁百宝箱依托智能体开发平台,快速打造会展专属智能体“桐小乌”,实现会前、会中、会后全链路智能化服务。通过“碰一下”打卡、AR导览、智能问答等功能,提升参会体验;基于行业模板与零代码能力,助力展会高效运营,推动智能会展“一箱搞定”。
118 9
蚂蚁百宝箱“一箱搞定”会展智能,「桐小乌」为乌镇互联网大会提供全天候一站式向导服务