一文读懂 高性能可预期数据中心网络

简介: 推动高性能网络高效稳定运行

首图-图标.png

在刚刚结束的首届中国算力大会上,阿里云磐久基础设施吸引了众多关注,参见《首届中国算力大会,我们在这里》,其中,“如何实现高性能网络的高效稳定运行?”成为客户询问最多的问题,本文借此为大家揭秘“磐久可预期网络”背后的核心科技。

1.jpg

图 | 磐久可预期网络展览现场


磐久可预期网络


近年来人工智能产业快速增长,但GPU算力的增长速率始终无法满足人工智能应用的需求,因而分布式机器学习模式成为业界常态。让数量巨大的异构计算资源高效协同工作,并不是一件容易的事情,高性能网络,就是其中关键的使能技术。


磐久可预期网络,是阿里云自研的高性能可预期数据中心网络,是以应用为中心,通过“阿里云全栈自研+端网融合技术”实现的高性能可预期网络系统。


整个系统通过阿里云自研交换机、自研网卡、自研高性能网络协议栈,打造了一个硬核的技术底座,并通过创新的端网融合技术使各个自研组件可以高效的协同,具有大规模、高带宽、低延时、高可靠、性能可预期等诸多显著优势,为阿里云的超大规模计算、存储集群提供了一个坚实网络底座。



三大核心技术展示



一、高性能网络架构


为了优化出最佳的算力能效,阿里云自研了High Performance Network(HPN)高性能网络架构,采用双平面转发的2层clos无收敛结构,可支持最多超过1万张A100 GPU的算力集群,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得哈希拥塞的概率尽量低,整体上实现集群算力性能的最优。


此外,双平面的架构设计,使得单一设备或者单一平面的网络故障都不会对整集群网络产生影响,再加上去堆叠双上联的服务接入,使得整个网络集群稳定可靠,为用户提供持续的网络服务能力,用户不用担心数据中心网络软硬件故障造成的影响。

3.jpg

图 | 高性能可预期数据中心网络架构图




二、端网融合全栈自研


自研交换机


高性能网络集群内部所有网络设备和光互联组件,均实现了自主研发,基于AliNOS的软件系统有效打通了单设备与整网维度的监管控能力,快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备完全契合阿里云的场景进行了模块化设计,实现了成本、供应、运维能力的多维度自主控制。

123.png

图 | 端网融合全栈自研



自研高性能协议栈


当前业界最广泛使用的高性能协议栈是IB和RoCEv2,但两者在大规模应用上均存在一定不足IB设备昂贵,和以太网无法互通,用户往往需要搭建一张昂贵的IB专网;RoCEv2协议启用PFC技术,导致存在巨大的稳定性风险,规模受限)。


在经过几年RoCEv2的大规模实践后,阿里云从2019年开始自主研发高性能网络协议Solar-RDMA。Solar-RDMA协议通过阿里自研的端网融合HPCC拥塞控制算法可以显著降低交换机队列抖动,在实现免PFC部署的同时,获得高带宽和低时延,确保数据以最短的时间在节点之间传输,从而保证算力的持续最大输出。



自研高性能网卡


为了真正的实现高性能,阿里云在2020年着手为Solar-RDMA协议设计硬件卸载方案,并在2021年成功自研了承载了该协议的高性能网卡FICFusion Intelligence Card)。目前FIC卡已经规模化上线。




三、平台化服务


高性能网络的高效稳定运行,始终是客户的核心诉求。


为实现这个目标,阿里云自研NUSANetwork Unified Service Architecture 服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。


基于创新的端网融合技术体系,NUSA提供了高性能网络自动化开通服务,自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和高性能网络虚拟化服务。


基于NUSA打造的普惠化高性能网络系统,可以让客户“放心用、省心用”。


通过端网融合关键技术,阿里云开启了数据中心网络可预期的新时代,为集群算力的持续稳定输出提供了底层网络保障。


未来,阿里云将面向更丰富的通信语义、更高带宽、更低时延和更好用的方向持续演进。



相关文章
|
2月前
|
大数据 云计算
中国网络大会专题论坛 | 下一代超大规模高性能公共云网络
中国计算机学会ChinaNet上,阿里云洛神云网络将与知名学术届代表一起共话下一代超大规模高性能公共云网络的关键技术。
|
4月前
|
编解码 分布式计算 网络协议
Netty高性能网络框架(一)
Netty高性能网络框架(一)
|
19天前
|
数据采集 监控 安全
公司网络监控软件:Zig 语言底层优化保障系统高性能运行
在数字化时代,Zig 语言凭借出色的底层控制能力和高性能特性,为公司网络监控软件的优化提供了有力支持。从数据采集、连接管理到数据分析,Zig 语言确保系统高效稳定运行,精准处理海量网络数据,保障企业信息安全与业务连续性。
39 4
|
2月前
|
算法 数据中心
数据结构之数据中心网络路由(BFS)
本文介绍了数据中心网络路由中使用广度优先搜索(BFS)算法的重要性及其应用。随着数据中心从集中式大型机系统发展到分布式架构,高效的数据路由成为确保低延迟、高吞吐量和网络可靠性的关键。BFS通过系统地探索网络层次,从源节点开始向外遍历,确保发现最短路径,特别适合于数据中心网络环境。文中还提供了BFS算法的具体实现代码,展示了如何在数据中心网络中应用该算法来查找节点间的最短路径,并讨论了BFS的优缺点。
49 0
数据结构之数据中心网络路由(BFS)
|
2月前
|
消息中间件 编解码 网络协议
Netty从入门到精通:高性能网络编程的进阶之路
【11月更文挑战第17天】Netty是一个基于Java NIO(Non-blocking I/O)的高性能、异步事件驱动的网络应用框架。使用Netty,开发者可以快速、高效地开发可扩展的网络服务器和客户端程序。本文将带您从Netty的背景、业务场景、功能点、解决问题的关键、底层原理实现,到编写一个详细的Java示例,全面了解Netty,帮助您从入门到精通。
206 0
|
2月前
|
大数据 云计算
2024 CCF中国网络大会专题论坛丨下一代超大规模高性能公共云网络 精彩回顾
中国计算机学会ChinaNet上,阿里云洛神云网络将与知名学术届代表一起共话下一代超大规模高性能公共云网络的关键技术。
|
4月前
|
负载均衡 网络协议 网络安全
设计一个高性能的网络系统
设计一个高性能的网络系统
72 2
|
3月前
|
移动开发 网络协议 测试技术
Mininet多数据中心网络拓扑流量带宽实验
Mininet多数据中心网络拓扑流量带宽实验
93 0
|
5月前
|
边缘计算 负载均衡 5G
边缘计算问题之数据中心内部和外部网络如何解决
边缘计算问题之数据中心内部和外部网络如何解决
41 1

热门文章

最新文章