一文读懂 高性能可预期数据中心网络

简介: 推动高性能网络高效稳定运行

首图-图标.png

在刚刚结束的首届中国算力大会上,阿里云磐久基础设施吸引了众多关注,参见《首届中国算力大会,我们在这里》,其中,“如何实现高性能网络的高效稳定运行?”成为客户询问最多的问题,本文借此为大家揭秘“磐久可预期网络”背后的核心科技。

1.jpg

图 | 磐久可预期网络展览现场


磐久可预期网络


近年来人工智能产业快速增长,但GPU算力的增长速率始终无法满足人工智能应用的需求,因而分布式机器学习模式成为业界常态。让数量巨大的异构计算资源高效协同工作,并不是一件容易的事情,高性能网络,就是其中关键的使能技术。


磐久可预期网络,是阿里云自研的高性能可预期数据中心网络,是以应用为中心,通过“阿里云全栈自研+端网融合技术”实现的高性能可预期网络系统。


整个系统通过阿里云自研交换机、自研网卡、自研高性能网络协议栈,打造了一个硬核的技术底座,并通过创新的端网融合技术使各个自研组件可以高效的协同,具有大规模、高带宽、低延时、高可靠、性能可预期等诸多显著优势,为阿里云的超大规模计算、存储集群提供了一个坚实网络底座。



三大核心技术展示



一、高性能网络架构


为了优化出最佳的算力能效,阿里云自研了High Performance Network(HPN)高性能网络架构,采用双平面转发的2层clos无收敛结构,可支持最多超过1万张A100 GPU的算力集群,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得哈希拥塞的概率尽量低,整体上实现集群算力性能的最优。


此外,双平面的架构设计,使得单一设备或者单一平面的网络故障都不会对整集群网络产生影响,再加上去堆叠双上联的服务接入,使得整个网络集群稳定可靠,为用户提供持续的网络服务能力,用户不用担心数据中心网络软硬件故障造成的影响。

3.jpg

图 | 高性能可预期数据中心网络架构图




二、端网融合全栈自研


自研交换机


高性能网络集群内部所有网络设备和光互联组件,均实现了自主研发,基于AliNOS的软件系统有效打通了单设备与整网维度的监管控能力,快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备完全契合阿里云的场景进行了模块化设计,实现了成本、供应、运维能力的多维度自主控制。

123.png

图 | 端网融合全栈自研



自研高性能协议栈


当前业界最广泛使用的高性能协议栈是IB和RoCEv2,但两者在大规模应用上均存在一定不足IB设备昂贵,和以太网无法互通,用户往往需要搭建一张昂贵的IB专网;RoCEv2协议启用PFC技术,导致存在巨大的稳定性风险,规模受限)。


在经过几年RoCEv2的大规模实践后,阿里云从2019年开始自主研发高性能网络协议Solar-RDMA。Solar-RDMA协议通过阿里自研的端网融合HPCC拥塞控制算法可以显著降低交换机队列抖动,在实现免PFC部署的同时,获得高带宽和低时延,确保数据以最短的时间在节点之间传输,从而保证算力的持续最大输出。



自研高性能网卡


为了真正的实现高性能,阿里云在2020年着手为Solar-RDMA协议设计硬件卸载方案,并在2021年成功自研了承载了该协议的高性能网卡FICFusion Intelligence Card)。目前FIC卡已经规模化上线。




三、平台化服务


高性能网络的高效稳定运行,始终是客户的核心诉求。


为实现这个目标,阿里云自研NUSANetwork Unified Service Architecture 服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。


基于创新的端网融合技术体系,NUSA提供了高性能网络自动化开通服务,自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和高性能网络虚拟化服务。


基于NUSA打造的普惠化高性能网络系统,可以让客户“放心用、省心用”。


通过端网融合关键技术,阿里云开启了数据中心网络可预期的新时代,为集群算力的持续稳定输出提供了底层网络保障。


未来,阿里云将面向更丰富的通信语义、更高带宽、更低时延和更好用的方向持续演进。



相关文章
|
7月前
|
网络协议 算法 Java
基于Reactor模型的高性能网络库之Tcpserver组件-上层调度器
TcpServer 是一个用于管理 TCP 连接的类,包含成员变量如事件循环(EventLoop)、连接池(ConnectionMap)和回调函数等。其主要功能包括监听新连接、设置线程池、启动服务器及处理连接事件。通过 Acceptor 接收新连接,并使用轮询算法将连接分配给子事件循环(subloop)进行读写操作。调用链从 start() 开始,经由线程池启动和 Acceptor 监听,最终由 TcpConnection 管理具体连接的事件处理。
250 2
|
7月前
基于Reactor模型的高性能网络库之Tcpconnection组件
TcpConnection 由 subLoop 管理 connfd,负责处理具体连接。它封装了连接套接字,通过 Channel 监听可读、可写、关闭、错误等
200 1
|
7月前
|
负载均衡 算法 安全
基于Reactor模式的高性能网络库之线程池组件设计篇
EventLoopThreadPool 是 Reactor 模式中实现“一个主线程 + 多个工作线程”的关键组件,用于高效管理多个 EventLoop 并在多核 CPU 上分担高并发 I/O 压力。通过封装 Thread 类和 EventLoopThread,实现线程创建、管理和事件循环的调度,形成线程池结构。每个 EventLoopThread 管理一个子线程与对应的 EventLoop(subloop),主线程(base loop)通过负载均衡算法将任务派发至各 subloop,从而提升系统性能与并发处理能力。
392 3
|
7月前
基于Reactor模式的高性能网络库github地址
https://github.com/zyi30/reactor-net.git
175 0
|
4月前
|
监控 区块链 数据中心
Arista EOS 4.35.0F 发布 - 适用于下一代数据中心和云网络的可扩展操作系统
Arista EOS 4.35.0F 发布 - 适用于下一代数据中心和云网络的可扩展操作系统
278 0
Arista EOS 4.35.0F 发布 - 适用于下一代数据中心和云网络的可扩展操作系统
|
7月前
基于Reactor模型的高性能网络库之Poller(EpollPoller)组件
封装底层 I/O 多路复用机制(如 epoll)的抽象类 Poller,提供统一接口支持多种实现。Poller 是一个抽象基类,定义了 Channel 管理、事件收集等核心功能,并与 EventLoop 绑定。其子类 EPollPoller 实现了基于 epoll 的具体操作,包括事件等待、Channel 更新和删除等。通过工厂方法可创建默认的 Poller 实例,实现多态调用。
365 60
|
7月前
|
安全 调度
基于Reactor模型的高性能网络库之核心调度器:EventLoop组件
它负责:监听事件(如 I/O 可读写、定时器)、分发事件、执行回调、管理事件源 Channel 等。
381 57
|
7月前
基于Reactor模型的高性能网络库之时间篇
是一个用于表示时间戳(精确到微秒)**的简单封装类
247 57
|
监控 数据可视化 Linux
Cisco Nexus Dashboard 4.1(1g) 发布 - 云和数据中心网络管理软件
Cisco Nexus Dashboard 4.1(1g) - 云和数据中心网络管理软件
203 0
|
5月前
|
Devops API 语音技术
Cisco NX-OS 10.6(1)F 发布 - 数据中心网络操作系统
Cisco NX-OS 10.6(1)F 发布 - 数据中心网络操作系统
138 0
Cisco NX-OS 10.6(1)F 发布 - 数据中心网络操作系统