一文读懂 高性能可预期数据中心网络

简介: 推动高性能网络高效稳定运行

首图-图标.png

在刚刚结束的首届中国算力大会上,阿里云磐久基础设施吸引了众多关注,参见《首届中国算力大会,我们在这里》,其中,“如何实现高性能网络的高效稳定运行?”成为客户询问最多的问题,本文借此为大家揭秘“磐久可预期网络”背后的核心科技。

1.jpg

图 | 磐久可预期网络展览现场


磐久可预期网络


近年来人工智能产业快速增长,但GPU算力的增长速率始终无法满足人工智能应用的需求,因而分布式机器学习模式成为业界常态。让数量巨大的异构计算资源高效协同工作,并不是一件容易的事情,高性能网络,就是其中关键的使能技术。


磐久可预期网络,是阿里云自研的高性能可预期数据中心网络,是以应用为中心,通过“阿里云全栈自研+端网融合技术”实现的高性能可预期网络系统。


整个系统通过阿里云自研交换机、自研网卡、自研高性能网络协议栈,打造了一个硬核的技术底座,并通过创新的端网融合技术使各个自研组件可以高效的协同,具有大规模、高带宽、低延时、高可靠、性能可预期等诸多显著优势,为阿里云的超大规模计算、存储集群提供了一个坚实网络底座。



三大核心技术展示



一、高性能网络架构


为了优化出最佳的算力能效,阿里云自研了High Performance Network(HPN)高性能网络架构,采用双平面转发的2层clos无收敛结构,可支持最多超过1万张A100 GPU的算力集群,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得哈希拥塞的概率尽量低,整体上实现集群算力性能的最优。


此外,双平面的架构设计,使得单一设备或者单一平面的网络故障都不会对整集群网络产生影响,再加上去堆叠双上联的服务接入,使得整个网络集群稳定可靠,为用户提供持续的网络服务能力,用户不用担心数据中心网络软硬件故障造成的影响。

3.jpg

图 | 高性能可预期数据中心网络架构图




二、端网融合全栈自研


自研交换机


高性能网络集群内部所有网络设备和光互联组件,均实现了自主研发,基于AliNOS的软件系统有效打通了单设备与整网维度的监管控能力,快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备完全契合阿里云的场景进行了模块化设计,实现了成本、供应、运维能力的多维度自主控制。

123.png

图 | 端网融合全栈自研



自研高性能协议栈


当前业界最广泛使用的高性能协议栈是IB和RoCEv2,但两者在大规模应用上均存在一定不足IB设备昂贵,和以太网无法互通,用户往往需要搭建一张昂贵的IB专网;RoCEv2协议启用PFC技术,导致存在巨大的稳定性风险,规模受限)。


在经过几年RoCEv2的大规模实践后,阿里云从2019年开始自主研发高性能网络协议Solar-RDMA。Solar-RDMA协议通过阿里自研的端网融合HPCC拥塞控制算法可以显著降低交换机队列抖动,在实现免PFC部署的同时,获得高带宽和低时延,确保数据以最短的时间在节点之间传输,从而保证算力的持续最大输出。



自研高性能网卡


为了真正的实现高性能,阿里云在2020年着手为Solar-RDMA协议设计硬件卸载方案,并在2021年成功自研了承载了该协议的高性能网卡FICFusion Intelligence Card)。目前FIC卡已经规模化上线。




三、平台化服务


高性能网络的高效稳定运行,始终是客户的核心诉求。


为实现这个目标,阿里云自研NUSANetwork Unified Service Architecture 服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。


基于创新的端网融合技术体系,NUSA提供了高性能网络自动化开通服务,自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和高性能网络虚拟化服务。


基于NUSA打造的普惠化高性能网络系统,可以让客户“放心用、省心用”。


通过端网融合关键技术,阿里云开启了数据中心网络可预期的新时代,为集群算力的持续稳定输出提供了底层网络保障。


未来,阿里云将面向更丰富的通信语义、更高带宽、更低时延和更好用的方向持续演进。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
4月前
|
缓存 负载均衡 应用服务中间件
高性能网络编程技术 Nginx 的概念与实践
Nginx 是一款高性能、轻量级的Web服务器和反向代理服务器,它在网络编程技术领域中被广泛应用。本文将详细介绍Nginx的概念和实践,包括其核心原理、功能特点、优势和应用场景等方面。同时,还将深入探讨如何使用Nginx进行高性能网络编程,结合实际案例进行分析。
|
2月前
|
NoSQL Java Linux
【Linux IO多路复用 】 Linux 网络编程 认知负荷与Epoll:高性能I-O多路复用的实现与优化
【Linux IO多路复用 】 Linux 网络编程 认知负荷与Epoll:高性能I-O多路复用的实现与优化
67 0
|
3月前
|
存储 并行计算 网络协议
|
3月前
|
弹性计算 安全 数据中心
阿里云香港服务器提供高性能、安全、CN2高速网络、BGP多线精品
阿里云香港服务器提供高性能、安全、CN2高速网络、BGP多线精品
|
4月前
|
机器学习/深度学习 人工智能 JavaScript
WebAssembly 技术:开启高性能网络应用新时代
WebAssembly 技术是一种全新的 bytecode 格式,它可以在各种运行时环境中运行,包括 Web 浏览器。相较于 JavaScript,WebAssembly 具有更高的性能和更好的可移植性,可以在 Web 应用程序中实现更多的计算密集型任务。本文将介绍 WebAssembly 的基本概念、优势和应用领域,并探讨其未来的发展趋势。
|
4月前
|
缓存 负载均衡 应用服务中间件
高性能网络编程技术 Nginx 的概念与实践
在当今互联网时代,高性能网络编程技术越来越受到重视。Nginx 作为一款高性能、高可靠性的 Web 服务器,拥有广泛的应用和优异的性能表现。本文将介绍 Nginx 的基本概念、架构以及实践技巧,帮助读者更好地理解和使用这一工具。
|
4月前
|
缓存 监控 Java
高性能网络编程 - 解读3种线程模型
高性能网络编程 - 解读3种线程模型
48 0
|
4月前
|
网络协议 Linux 应用服务中间件
高性能网络编程 - 解读5种I/O模型
高性能网络编程 - 解读5种I/O模型
66 0

热门文章

最新文章