11月8日~10日在江苏张家港召开的CCF ChinaNet(即中国网络大会)上,众多院士、教授和业界技术领袖齐聚一堂,畅谈网络未来的发展方向,聚焦智算集群网络的创新变革。其中,阿里云研发副总裁,基础设施网络负责人蔡德忠先生发表题为《规模x10驱动AI智算集群网络架构新一轮变革》的主题演讲,展望智算技术发展趋势,尤其是Scale up网络的发展方向,提出智算网络未来的技术架构变革的新思路,发布了高通量以太网协议和智算超节点系统ENode+的路标规划,引起广泛关注。
过去一年,阿里云HPN7.0
引领智算以太网生态蓬勃发展
模型的持续scaling,以及数据集的扩充,对于模型训练的总计算量要求一直在增长,业界总结发现,算力需求量每年增长4-6倍,而单颗芯片的算力增长、显存增长、网络带宽增长仍然遵循摩尔定律,每2年才一倍,无法满足算力增长的需求,所以算力来自于将更多的GPU进行集群化互联,网络在算力scaling中扮演关键的角色。
在2023年初的时候,智算集群的网络方案选择还是百花齐放的状态,Google有基于私有协议的TPU集群,微软使用了NV提供的一整套IB方案,而阿里云、AWS等公司坚持使用开放的以太网来构建集群。一时间,以太网还是IB,成为智算集群架构选择的关键话题。阿里云坚定以太网的路线,并且针对智算集群的特点创新设计了HPN7.0架构,采用业界首发的全自研51.2T交换机,利用多轨、双上联、双平面,结合自研通信库、协议、流控组成高性能系统。阿里云在大规模部署HPN7.0智算集群的同时,其论文被顶会SIGCOMM录取,成为网络顶会历史上首篇AI智算网络架构论文。
一年多时间过去了,阿里云HPN7.0已经成为业界标杆,引领了以太网智算集群的技术方向,目前国内外各大公司都在朝着这个方向演进,北美几大公司都已经或者即将基于以太网来部署十万卡级别的算力集群,关于智算集群以太网和IB的争议已经落幕,以太网正在成为超大规模智算集群的行业主流。
未来几年,X10规模
将给网络带来新的重要问题
虽然以太网和IB的选择已经画上句号,但是新的挑战还在继续。在智算集群的规模化方向上,各大公司你追我赶,国内公司的智算集群也将很快向X10规模迈进,尤其是在算力受到限制的情况下,通过网络互联扩展规模更有必要。GPU规模的扩展并不是想象中这么简单:不可避免的硬件故障将导致任务中断会更加频繁;受限于电力、空间,GPU资源可能会分布在不同园区,距离带来的时延和带宽限制会对整个训练集群的性能产生影响;尤其是GPU Scale up范围也将更大,智算集群的网络架构也会因此产生深远的变革。
通过更大带宽的网络互联是算力扩展的必经之路,这是从整体系统架构层面突破摩尔定律限制的主要路径。在这个方向上,无论Scale up、Scale out都需要更加激进的规划。
GPU Scale up协议路线之争,
Ethernet优势明显
到底什么是Scale up?简单来讲,Scale up就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是Scale out的数倍以上,可以在协议层面优化来支持内存语义。
不少人以为Scale up是机内互联,这是一种误解。在8卡系统的时代,因为8卡在一个OS内部所以确实是机内互联,然而,当NVL36、72这种AI rack的形态出现后,GPU Scale up就不是“机内互联”,而是一种新型的节点间网络互联。以NVL72为例,实际上是18台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽10倍于Scale out的大的带宽(7.2Tbps vs 800Gbps),此外还支持了内存操作语义,为了区分,我们继续称其为GPU Scale up。
GPU Scale up是AI系统发展的一个热门话题,备受关注。Scale up网络大体上可以分成2个技术方向。
1.以NV、Google为代表的私有协议、封闭系统方案(NVLink和TPU互联)。
2.以各大互联网和云计算公司自研GPU(微软、Meta、Tesla等),以及AMD、Intel为代表的基于Ethernet的网络传输方案。
Ethernet有超大带宽技术和强大的生态支撑,尤其是UEC、高通量以太网等开放组织针对Scale up进行协议的升级后,Ethernet支持超大带宽的同时实现了超低时延、在网计算等核心功能,所以我们可以看到新晋Scale up系统都选择了Ethernet,可以说Ethernet这些特质已经成为GPU Scale up网络快速落地的首选技术方案。
计算和网络的新变革,
Scale up融合架构优势明显
Scale up与Scale out如何协同工作是决定集群网络性能的关键。在今天的单机8卡系统中,通过多轨互联、并行排布、通信库协同,阿里云的HPN7.0架构已经将万卡级别的通信性能发挥到极致。那将来Scale up扩展到多机系统,尤其是成百上千卡之后,Scale up与Scale out应该如何协同做到全局效率最高呢?机尾backend会继续沿着Scale up+Scale out两张网络各自发展,还是会融合兼顾?
当Ethernet成为Scale up的主流方案之后,这个选择方向呼之欲出,融合架构将是效率更高、成本更低的架构。融合架构将使带宽得到充分共享,Scale up范围内进行大带宽的TP、EP、CP等通信,多个Scale up域通过Scale out互联,进行DP、PP等通信,跨Scale up实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up和Scale out的以太网融合为一张网,通过将不同的Scale up域进行Scale out互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。
未来可期,高通量以太网发布
关键路标和超节点ENode+计划
在大会上,阿里云代表联盟发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时发布了基于高通量以太网的ENode+超节点路线,为高通量以太网的系统化落地构筑蓝图。