【阅读原文】戳:详解灵骏智能算力之可预期高性能网络
8月30日下午,阿里云重磅发布飞天智算平台,其中新一代智能计算产品——「灵骏」闪亮登场!灵骏智能计算基于阿里云自研高性能可预期数据中心网络,可轻松支持集群扩展到万卡规模,实现端到端时延降低90%,从而为人工智能等应用提供高效的绿色算力。本文将为大家揭开阿里云高性能可预期数据中心网络的神秘面纱。
图 | 阿里云重磅发布新一代智能计算产品——「灵骏」
阿里云高性能可预期数据中心网络的核心技术包括:
● 自研High Performance Network(HPN)高性能网络架构;
● 基于自研交换机和智能网卡的端网融合核心技术体系;
● 统一的高性能网络服务平台,Network Unified Service Architecture (NUSA)。
其中,HPN网络架构采用双平面转发的2层clos无收敛结构(如下图所示),可支持最多超过1万张GPU的算力集群。双平面2层clos使得拓扑简单、规模增加的同时保持更低的单位成本,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得hash拥塞的概率尽量低,整体上实现集群算力性能的最优。HPN架构在设计之初就瞄准万卡高性能而设计,利用网络仿真平台NetMatrix进行流量模拟和架构仿真,打造了低时延高性能的智算网络架构。
图 | 阿里云双平面HPN网络架构
HPN架构确定了网络的理论最优性能,但由于网络本身是一个复杂的系统,所以如何让网络工作在最优状态同样是一个非常复杂的问题。为了解决这个问题,我们利用阿里云自研交换机(如下图所示),并结合端侧的智能网卡,实现了端网融合的可预期数据中心网络,从而确保应用可以获得最佳性能。其中,我们利用带内网络遥测技术(Inband Network Telemetry, INT),并结合端侧实现的高精度拥塞控制算法(High Precision Congestion Control,HPCC),可以让端侧依据网络的实时状态做到更科学合理的流控决策。基于上述技术方案,可以显著降低交换机队列的抖动,从而在实现免PFC(Priority-based Flow Control)部署的同时,可以获得网络高带宽和低时延。基于HPCC与INT技术的结合,分布式机器学习应用可以用最短的时间在节点之间完成数据的传输,从而保证GPU持续处在高利用率水位,保证了集群算力的持续最大输出。另外,为了实现精确的多路径传输以及毫秒级的端到端故障规避和恢复,阿里自研交换机创新性的提出了hashlib技术。基于hashlib,端侧传输层协议可以感知网络设备的转发规则,还可以精确的指定报文传输的网络路径,从而实现真正的“无交叠/无拥塞”多路径传输。基于hashlib,上层应用软件可以结合自身业务特征,实现通信任务的高效编排,获得端到端的业务最优性能。
图 | 阿里云自研交换机
除此之外,高性能网络的高效稳定运行也是客户始终的核心诉求。为了实现这个目标,阿里云自研Network Unified Service Architecture (NUSA)高网统一服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。基于创新的端网融合技术体系,NUSA提供了自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和虚拟化服务。基于NUSA打造的普惠化高性能网络系统,让客户可以“放心用、省心用”阿里云自研高性能网络系统。
在过去几年,阿里云在高性能网络领域持续耕耘,诞生了HPN、HPCC、hashlib和NUSA等一系列核心技术,在保障上层关键业务高效稳定运行的同时,也使其享受到了可预期的高性能网络红利。未来,阿里云将在高性能网络领域进一步创新,并将重点在自研网络设备、新通信语义、自研协议等方面持续发力,和业界一起共同推动高性能网络的普惠化。欢迎对高性能网络领域感兴趣的专家加入我们,或和我们展开多种形式的合作。