在刚刚结束的首届中国算力大会上,阿里云磐久基础设施吸引了众多关注,参见《首届中国算力大会,我们在这里》,其中,“如何实现高性能网络的高效稳定运行?”成为客户询问最多的问题,本文借此为大家揭秘“磐久可预期网络”背后的核心科技。
图 | 磐久可预期网络展览现场
磐久可预期网络
近年来人工智能产业快速增长,但GPU算力的增长速率始终无法满足人工智能应用的需求,因而分布式机器学习模式成为业界常态。让数量巨大的异构计算资源高效协同工作,并不是一件容易的事情,高性能网络,就是其中关键的使能技术。
磐久可预期网络,是阿里云自研的高性能可预期数据中心网络,是以应用为中心,通过“阿里云全栈自研+端网融合技术”实现的高性能可预期网络系统。
整个系统通过阿里云自研交换机、自研网卡、自研高性能网络协议栈,打造了一个硬核的技术底座,并通过创新的端网融合技术使各个自研组件可以高效的协同,具有大规模、高带宽、低延时、高可靠、性能可预期等诸多显著优势,为阿里云的超大规模计算、存储集群提供了一个坚实网络底座。
三大核心技术展示
一、高性能网络架构
为了优化出最佳的算力能效,阿里云自研了High Performance Network(HPN)高性能网络架构,采用双平面转发的2层clos无收敛结构,可支持最多超过1万张A100 GPU的算力集群,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得哈希拥塞的概率尽量低,整体上实现集群算力性能的最优。
此外,双平面的架构设计,使得单一设备或者单一平面的网络故障都不会对整集群网络产生影响,再加上去堆叠双上联的服务接入,使得整个网络集群稳定可靠,为用户提供持续的网络服务能力,用户不用担心数据中心网络软硬件故障造成的影响。
图 | 高性能可预期数据中心网络架构图
二、端网融合全栈自研
自研交换机
高性能网络集群内部所有网络设备和光互联组件,均实现了自主研发,基于AliNOS的软件系统有效打通了单设备与整网维度的监管控能力,快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备完全契合阿里云的场景进行了模块化设计,实现了成本、供应、运维能力的多维度自主控制。
图 | 端网融合全栈自研
自研高性能协议栈
当前业界最广泛使用的高性能协议栈是IB和RoCEv2,但两者在大规模应用上均存在一定不足(IB设备昂贵,和以太网无法互通,用户往往需要搭建一张昂贵的IB专网;RoCEv2协议启用PFC技术,导致存在巨大的稳定性风险,规模受限)。
在经过几年RoCEv2的大规模实践后,阿里云从2019年开始自主研发高性能网络协议Solar-RDMA。Solar-RDMA协议通过阿里自研的端网融合HPCC拥塞控制算法可以显著降低交换机队列抖动,在实现免PFC部署的同时,获得高带宽和低时延,确保数据以最短的时间在节点之间传输,从而保证算力的持续最大输出。
自研高性能网卡
为了真正的实现高性能,阿里云在2020年着手为Solar-RDMA协议设计硬件卸载方案,并在2021年成功自研了承载了该协议的高性能网卡FIC(Fusion Intelligence Card)。目前FIC卡已经规模化上线。
三、平台化服务
高性能网络的高效稳定运行,始终是客户的核心诉求。
为实现这个目标,阿里云自研NUSA(Network Unified Service Architecture )服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。
基于创新的端网融合技术体系,NUSA提供了高性能网络自动化开通服务,自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和高性能网络虚拟化服务。
基于NUSA打造的普惠化高性能网络系统,可以让客户“放心用、省心用”。
通过端网融合关键技术,阿里云开启了数据中心网络可预期的新时代,为集群算力的持续稳定输出提供了底层网络保障。
未来,阿里云将面向更丰富的通信语义、更高带宽、更低时延和更好用的方向持续演进。