阿里云引领智算集群网络架构的新一轮变革

简介: 11月8日至10日,CCF ChinaNet(中国网络大会)在江苏张家港召开,众多院士、教授和技术领袖共聚一堂,探讨网络未来发展方向。阿里云研发副总裁蔡德忠发表主题演讲,展望智算技术发展趋势,提出智算网络架构变革的新思路,发布高通量以太网协议和ENode+超节点系统规划,引起广泛关注。阿里云HPN7.0引领智算以太网生态蓬勃发展,成为业界标杆。未来,X10规模的智算集群将面临新的挑战,Ethernet将成为主流方案,推动Scale up与Scale out的融合架构,提升整体系统性能。

11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠先生发表题为《规模x10驱动AI智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是Scale up网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+的路标规划,引起广泛关注。

过去一年,阿里云HPN7.0

引领智算以太网生态蓬勃发展

模型的持续scaling,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长4-6倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每2年才一倍,无法满足算力增长的需求,所以算力来自于将更多的GPU进行集群化互联,网络在算力scaling中扮演关键的角色。

在2023年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google有基于私有协议的TPU集群,微软使用了NV提供的一整套IB方案,而阿里云、AWS等公司坚持使用开放的以太网来构建集群。一时间,以太网还是IB,成为智算集群架构选择的关键话题。阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了HPN7.0架构,采用业界首发的全自研51.2T交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署HPN7.0智算集群的同时,其论文被顶会SIGCOMM录取,成为网络顶会历史上首篇AI智算网络架构论文。

一年多时间过去了,阿里云HPN7.0已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和IB的争议已经落幕,以太网正在成为超大规模智算集群的行业主流。

未来几年,X10规模

将给网络带来新的重要问题

虽然以太网和IB的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向X10规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间,GPU资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是GPU Scale up范围也将更大,智算集群的网络架构也会因此产生深远的变革。

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论Scale up、Scale out都需要更加激进的规划。

GPU Scale up协议路线之争,

Ethernet优势明显

到底什么是Scale up?简单来讲,Scale up就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是Scale out的数倍以上,可以在协议层面优化来支持内存语义。

不少人以为Scale up是机内互联,这是一种误解。在8卡系统的时代,因为8卡在一个OS内部所以确实是机内互联,然而,当NVL36、72这种AI rack的形态出现后,GPU Scale up就不是“机内互联”,而是一种新型的节点间网络互联。以NVL72为例,实际上是18台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽10倍于Scale out的大的带宽(7.2Tbps vs 800Gbps),此外还支持了内存操作语义,为了区分,我们继续称其为GPU Scale up。

image4.png
image5.png

GPU Scale up是AI系统发展的一个热门话题,备受关注。Scale up网络大体上可以分成2个技术方向。

1.以NV、Google为代表的私有协议、封闭系统方案(NVLink和TPU互联)。

2.以各大互联网和云计算公司自研GPU(微软、Meta、Tesla等),以及AMD、Intel为代表的基于Ethernet的网络传输方案。

Ethernet有超大带宽技术和强大的生态支撑,尤其是UEC、高通量以太网等开放组织针对Scale up进行协议的升级后,Ethernet支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋Scale up系统都选择了Ethernet,可以说Ethernet这些特质已经成为GPU Scale up网络快速落地的首选技术方案。

计算和网络的新变革,

Scale up融合架构优势明显


Scale up与Scale out如何协同工作是决定集群网络性能的关键。在今天的单机8卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的HPN7.0架构已经将万卡级别的通信性能发挥到极致。那将来Scale up扩展到多机系统,尤其是成百上千卡之后,Scale up与Scale out应该如何协同做到全局效率最高呢?机尾backend会继续沿着Scale up+Scale out两张网络各自发展,还是会融合兼顾?

当Ethernet成为Scale up的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享,Scale up范围内进行大带宽的TP、EP、CP等通信,多个Scale up域通过Scale out互联,进行DP、PP等通信,跨Scale up实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up和Scale out的以太网融合为一张网,通过将不同的Scale up域进行Scale out互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。

IMG_4526.PNG.JPG


未来可期,高通量以太网发布

关键路标和超节点ENode+计划


在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的ENode+超节点路线,为高通量以太网的系统化落地构筑蓝图。

7BA58E6A-5AFD-419A-AA0C-A03D4CD721FF.png

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
2月前
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
3月前
|
供应链 安全 网络协议
|
3月前
|
弹性计算 负载均衡 网络协议
阿里云SLB深度解析:从流量分发到架构优化的技术实践
本文深入探讨了阿里云负载均衡服务(SLB)的核心技术与应用场景,从流量分配到架构创新全面解析其价值。SLB不仅是简单的流量分发工具,更是支撑高并发、保障系统稳定性的智能中枢。文章涵盖四层与七层负载均衡原理、弹性伸缩引擎、智能DNS解析等核心技术,并结合电商大促、微服务灰度发布等实战场景提供实施指南。同时,针对性能调优与安全防护,分享连接复用优化、DDoS防御及零信任架构集成的实践经验,助力企业构建面向未来的弹性架构。
316 76
|
2月前
|
人工智能 算法 异构计算
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
近日,阿里云基础网络技术5篇论文被NSDI 2025主会录用。研究涵盖大模型训练网络故障诊断、仿真、容器网络性能诊断、CDN流控算法智能选择及GPU解耦推理优化等领域。其中,《Evolution of Aegis》提出增强现有体系+训练过程感知的两阶段演进路线,显著降低故障诊断耗时;《SimAI》实现高精度大模型集群训练模拟;《Learning Production-Optimized Congestion Control Selection》通过AliCCS优化CDN拥塞控制;《Prism》设计全新GPU解耦推理方案;《ScalaCN》解决容器化RDMA场景性能问题。
98 7
阿里云基础网络技术5篇论文入选全球网络顶会NSDI
|
1月前
|
消息中间件 存储 大数据
阿里云消息队列 Kafka 架构及典型应用场景
阿里云消息队列 Kafka 是一款基于 Apache Kafka 的分布式消息中间件,支持消息发布与订阅模型,满足微服务解耦、大数据处理及实时流数据分析需求。其通过存算分离架构优化成本与性能,提供基础版、标准版和专业版三种 Serverless 版本,分别适用于不同业务场景,最高 SLA 达 99.99%。阿里云 Kafka 还具备弹性扩容、多可用区部署、冷热数据缓存隔离等特性,并支持与 Flink、MaxCompute 等生态工具无缝集成,广泛应用于用户行为分析、数据入库等场景,显著提升数据处理效率与实时性。
|
2月前
|
canal 负载均衡 智能网卡
阿里云洛神云网络论文入选SIGCOMM'25主会,相关实习生岗位火热招聘中
阿里云飞天洛神云网络的两项核心技术Nezha和Hermes被SIGCOMM 2025主会录用。Nezha通过计算网络解耦实现vSwitch池化架构,大幅提升网络性能;Hermes则提出用户态引导I/O事件通知框架,优化L7负载均衡。这两项技术突破解决了云网络中的关键问题,展现了阿里云在网络领域的领先实力。
313 2
|
3月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
3月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
134 6
|
3月前
|
存储 机器学习/深度学习 算法
阿里云X86/ARM/GPU/裸金属/超算等五大服务器架构技术特点、场景适配与选型策略
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别。本文将深入解析这些架构的特点、优势及适用场景,帮助用户更好地根据实际需求做出选择。
|
3月前
|
Cloud Native Serverless 流计算
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
232 12

热门文章

最新文章