阿里云引领智算集群网络架构的新一轮变革

简介: 11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。

【阅读原文】戳:阿里云引领智算集群网络架构的新一轮变革


11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠生发表题为《规模x10驱动AI智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是Scale up网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+的路标规划,引起广泛关注。

 

 

 

 

过去一年,阿里云HPN7.0引领智算以太网生态蓬勃发展

 

 

 

模型的持续scaling,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长4-6倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每2年才一倍,无法满足算力增长的需求,所以算力来自于将更多的GPU进行集群化互联,网络在算力scaling中扮演关键的角色。

 

在2023年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google有基于私有协议的TPU集群,微软使用了NV提供的一整套IB方案,而阿里云、AWS等公司坚持使用开放的以太网来构建集群。一时间,以太网还是IB,成为智算集群架构选择的关键话题。阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了HPN7.0架构,采用业界首发的全自研51.2T交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署HPN7.0智算集群的同时,其论文被顶会SIGCOMM录取,成为网络顶会历史上首篇AI智算网络架构论文。

 

一年多时间过去了,阿里云HPN7.0已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和IB的争议已经落幕,以太网正在成为超大规模智算集群的行业主流

 

 

 

 

未来几年,X10规模将给网络带来新的重要问题

 

 

 

虽然以太网和IB的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向X10规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间,GPU资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是GPU Scale up范围也将更大,智算集群的网络架构也会因此产生深远的变革。

 

通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论Scale up、Scale out都需要更加激进的规划。

 

 

 

 

GPU Scale up协议路线之争,Ethernet优势明显

 

 

 

到底什么是Scale up?简单来讲,Scale up就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是Scale out的数倍以上,可以在协议层面优化来支持内存语义。

 

不少人以为Scale up是机内互联,这是一种误解。在8卡系统的时代,因为8卡在一个OS内部所以确实是机内互联,然而,当NVL36、72这种AI rack的形态出现后,GPU Scale up就不是“机内互联”,而是一种新型的节点间网络互联。以NVL72为例,实际上是18台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽10倍于Scale out的大的带宽(7.2Tbps vs 800Gbps),此外还支持了内存操作语义,为了区分,我们继续称其为GPU Scale up。

 

 

GPU Scale up是AI系统发展的一个热门话题,备受关注。Scale up网络大体上可以分成2个技术方向。

 

1.以NV、Google为代表的私有协议、封闭系统方案(NVLink和TPU互联)。

 

2.以各大互联网和云计算公司自研GPU(微软、Meta、Tesla等),以及AMD、Intel为代表的基于Ethernet的网络传输方案。

 

Ethernet有超大带宽技术和强大的生态支撑,尤其是UEC、高通量以太网等开放组织针对Scale up进行协议的升级后,Ethernet支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋Scale up系统都选择了Ethernet,可以说Ethernet这些特质已经成为GPU Scale up网络快速落地的首选技术方案

 

 

 

 

计算和网络的新变革,Scale up融合架构优势明显

 

 

 

Scale up与Scale out如何协同工作是决定集群网络性能的关键。在今天的单机8卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的HPN7.0架构已经将万卡级别的通信性能发挥到极致。那将来Scale up扩展到多机系统,尤其是成百上千卡之后,Scale up与Scale out应该如何协同做到全局效率最高呢?机尾backend会继续沿着Scale up+Scale out两张网络各自发展,还是会融合兼顾?

 

当Ethernet成为Scale up的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享,Scale up范围内进行大带宽的TP、EP、CP等通信,多个Scale up域通过Scale out互联,进行DP、PP等通信,跨Scale up实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up和Scale out的以太网融合为一张网,通过将不同的Scale up域进行Scale out互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。

 

11.12-02-修改.png

 

 

 

 

未来可期,高通量以太网发布关键路标和超节点ENode+计划

 

 

 

在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的ENode+超节点路线,为高通量以太网的系统化落地构筑蓝图


 





我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。
140 11
|
1月前
|
Java Linux C语言
《docker基础篇:2.Docker安装》包括前提说明、Docker的基本组成、Docker平台架构图解(架构版)、安装步骤、阿里云镜像加速、永远的HelloWorld、底层原理
《docker基础篇:2.Docker安装》包括前提说明、Docker的基本组成、Docker平台架构图解(架构版)、安装步骤、阿里云镜像加速、永远的HelloWorld、底层原理
355 90
|
27天前
|
人工智能 网络协议 数据中心
阿里云基础设施网络2024年创新总结
本文将盘点阿里云基础设施网络团队2024年在AI时代可预期网络的技术突破、学术成果、开源生态共建与重要会议技术布道等,与业界同仁一同探讨和展望AI时代的网络技术发展热点和趋势。
阿里云基础设施网络2024年创新总结
|
5天前
|
存储 人工智能 并行计算
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
|
1月前
|
Web App开发 监控 网络协议
网络分析与监控:阿里云拨测方案解密
阿里云网络拨测业务提供了全球、多种协议、多种网络态势的用户网络性能和用户体验监控场景的全面可观测方案。该文章从拨测场景下,介绍了用户如何快速的构建一套全球用户视角的服务可用性大盘,为客户的业务保驾护航。
143 11
|
1月前
|
负载均衡 芯片 异构计算
NSDI'24 | 阿里云飞天洛神云网络论文解读——《LuoShen》揭秘新型融合网关 洛神云网关
NSDI‘24于4月16-18日在美国圣塔克拉拉市举办,阿里云飞天洛神云网络首次中稿NSDI,两篇论文入选。其中《LuoShen: A Hyper-Converged Programmable Gateway for Multi-Tenant Multi-Service Edge Clouds》提出超融合网关LuoShen,基于Tofino、FPGA和CPU的新型硬件形态,将公有云VPC设施部署到边缘机柜中,实现小型化、低成本和高性能。该方案使成本降低75%,空间占用减少87%,并提供1.2Tbps吞吐量,展示了强大的技术竞争力。
|
1月前
|
SQL Cloud Native API
NSDI'24 | 阿里云飞天洛神云网络论文解读——《Poseidon》揭秘新型超高性能云网络控制器
NSDI‘24于4月16-18日在美国加州圣塔克拉拉市举办,汇聚全球网络系统领域的专家。阿里云飞天洛神云网络的两篇论文入选,标志着其创新能力获广泛认可。其中,《Poseidon: A Consolidated Virtual Network Controller that Manages Millions of Tenants via Config Tree》介绍了波塞冬平台,该平台通过统一控制器架构、高性能配置计算引擎等技术,实现了对超大规模租户和设备的高效管理,显著提升了云网络性能与弹性。实验结果显示,波塞冬在启用EIP时的完成时间比Top 5厂商分别快1.8至55倍和2.6至4.8倍。
|
1月前
|
负载均衡 容灾 Cloud Native
云原生应用网关进阶:阿里云网络ALB Ingress 全能增强
在过去半年,ALB Ingress Controller推出了多项高级特性,包括支持AScript自定义脚本、慢启动、连接优雅中断等功能,增强了产品的灵活性和用户体验。此外,还推出了ingress2Albconfig工具,方便用户从Nginx Ingress迁移到ALB Ingress,以及通过Webhook服务实现更智能的配置校验,减少错误配置带来的影响。在容灾部署方面,支持了多集群网关,提高了系统的高可用性和容灾能力。这些改进旨在为用户提供更强大、更安全的云原生网关解决方案。
557 20
|
2月前
|
运维 供应链 安全
阿里云先知安全沙龙(武汉站) - 网络空间安全中的红蓝对抗实践
网络空间安全中的红蓝对抗场景通过模拟真实的攻防演练,帮助国家关键基础设施单位提升安全水平。具体案例包括快递单位、航空公司、一线城市及智能汽车品牌等,在演练中发现潜在攻击路径,有效识别和防范风险,确保系统稳定运行。演练涵盖情报收集、无差别攻击、针对性打击、稳固据点、横向渗透和控制目标等关键步骤,全面提升防护能力。
|
2月前
|
存储 监控 安全
网络安全视角:从地域到账号的阿里云日志审计实践
日志审计的必要性在于其能够帮助企业和组织落实法律要求,打破信息孤岛和应对安全威胁。选择 SLS 下日志审计应用,一方面是选择国家网络安全专用认证的日志分析产品,另一方面可以快速帮助大型公司统一管理多组地域、多个账号的日志数据。除了在日志服务中存储、查看和分析日志外,还可通过报表分析和告警配置,主动发现潜在的安全威胁,增强云上资产安全。

热门文章

最新文章