一文读懂 高性能可预期数据中心网络

简介: 推动高性能网络高效稳定运行

首图-图标.png

在刚刚结束的首届中国算力大会上,阿里云磐久基础设施吸引了众多关注,参见《首届中国算力大会,我们在这里》,其中,“如何实现高性能网络的高效稳定运行?”成为客户询问最多的问题,本文借此为大家揭秘“磐久可预期网络”背后的核心科技。

1.jpg

图 | 磐久可预期网络展览现场


磐久可预期网络


近年来人工智能产业快速增长,但GPU算力的增长速率始终无法满足人工智能应用的需求,因而分布式机器学习模式成为业界常态。让数量巨大的异构计算资源高效协同工作,并不是一件容易的事情,高性能网络,就是其中关键的使能技术。


磐久可预期网络,是阿里云自研的高性能可预期数据中心网络,是以应用为中心,通过“阿里云全栈自研+端网融合技术”实现的高性能可预期网络系统。


整个系统通过阿里云自研交换机、自研网卡、自研高性能网络协议栈,打造了一个硬核的技术底座,并通过创新的端网融合技术使各个自研组件可以高效的协同,具有大规模、高带宽、低延时、高可靠、性能可预期等诸多显著优势,为阿里云的超大规模计算、存储集群提供了一个坚实网络底座。



三大核心技术展示



一、高性能网络架构


为了优化出最佳的算力能效,阿里云自研了High Performance Network(HPN)高性能网络架构,采用双平面转发的2层clos无收敛结构,可支持最多超过1万张A100 GPU的算力集群,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得哈希拥塞的概率尽量低,整体上实现集群算力性能的最优。


此外,双平面的架构设计,使得单一设备或者单一平面的网络故障都不会对整集群网络产生影响,再加上去堆叠双上联的服务接入,使得整个网络集群稳定可靠,为用户提供持续的网络服务能力,用户不用担心数据中心网络软硬件故障造成的影响。

3.jpg

图 | 高性能可预期数据中心网络架构图




二、端网融合全栈自研


自研交换机


高性能网络集群内部所有网络设备和光互联组件,均实现了自主研发,基于AliNOS的软件系统有效打通了单设备与整网维度的监管控能力,快速迭代新功能的同时实现了监管控一体化,全自研的硬件设备完全契合阿里云的场景进行了模块化设计,实现了成本、供应、运维能力的多维度自主控制。

123.png

图 | 端网融合全栈自研



自研高性能协议栈


当前业界最广泛使用的高性能协议栈是IB和RoCEv2,但两者在大规模应用上均存在一定不足IB设备昂贵,和以太网无法互通,用户往往需要搭建一张昂贵的IB专网;RoCEv2协议启用PFC技术,导致存在巨大的稳定性风险,规模受限)。


在经过几年RoCEv2的大规模实践后,阿里云从2019年开始自主研发高性能网络协议Solar-RDMA。Solar-RDMA协议通过阿里自研的端网融合HPCC拥塞控制算法可以显著降低交换机队列抖动,在实现免PFC部署的同时,获得高带宽和低时延,确保数据以最短的时间在节点之间传输,从而保证算力的持续最大输出。



自研高性能网卡


为了真正的实现高性能,阿里云在2020年着手为Solar-RDMA协议设计硬件卸载方案,并在2021年成功自研了承载了该协议的高性能网卡FICFusion Intelligence Card)。目前FIC卡已经规模化上线。




三、平台化服务


高性能网络的高效稳定运行,始终是客户的核心诉求。


为实现这个目标,阿里云自研NUSANetwork Unified Service Architecture 服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。


基于创新的端网融合技术体系,NUSA提供了高性能网络自动化开通服务,自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和高性能网络虚拟化服务。


基于NUSA打造的普惠化高性能网络系统,可以让客户“放心用、省心用”。


通过端网融合关键技术,阿里云开启了数据中心网络可预期的新时代,为集群算力的持续稳定输出提供了底层网络保障。


未来,阿里云将面向更丰富的通信语义、更高带宽、更低时延和更好用的方向持续演进。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
1月前
|
编解码 分布式计算 网络协议
Netty高性能网络框架(一)
Netty高性能网络框架(一)
|
13天前
|
移动开发 网络协议 测试技术
Mininet多数据中心网络拓扑流量带宽实验
Mininet多数据中心网络拓扑流量带宽实验
37 0
|
1月前
|
负载均衡 网络协议 网络安全
设计一个高性能的网络系统
设计一个高性能的网络系统
35 2
|
2月前
|
边缘计算 负载均衡 5G
边缘计算问题之数据中心内部和外部网络如何解决
边缘计算问题之数据中心内部和外部网络如何解决
24 1
|
2月前
|
负载均衡 算法 光互联
合理使用光互联产品减少万卡集群高性能网络中TOR交换机上行网络的ECMP哈希冲突
本文通过分析万卡集群高性能网络TOR层的ECMP哈希冲突,介绍如何通过使用有源光缆AOC和无源铜缆DAC分支线缆产品来减少ECMP哈希冲突的方法。
|
2月前
|
存储 人工智能 运维
深度解析 | 什么是超融合数据中心网络?
深度解析 | 什么是超融合数据中心网络?
1412 1
|
3月前
|
运维 负载均衡 监控
|
3月前
|
负载均衡 安全 Cloud Native
云上负载均衡:构建高可用、高性能的网络应用架构
与云原生技术深度融合:随着云原生技术的普及和发展未来的云上负载均衡将更加紧密地与云原生技术相结合。例如与Kubernetes等容器编排平台集成实现自动化的服务发现和路由管理;与Serverless架构结合提供无缝的流量接入和请求处理能力。 安全性能提升:面对日益严峻的网络安全威胁云上负载均衡将更加注重安全性能的提升。通过引入加密传输、访问控制、DDoS防护等安全措施确保网络流量的安全性和隐私性;同时还将建立完善的安全监控和应急响应机制以应对各种安全事件和突发事件。 支持多协议和多场景:未来的云上负载均衡将支持更多种类的网络协议和应用场景以满足不同用户和业务的需求。例如支持HTTP/2、
193 0
|
11天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第6天】在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将探讨网络安全漏洞、加密技术和安全意识等方面的内容,以帮助读者更好地了解这些主题,并采取适当的措施保护自己的信息安全。我们将通过代码示例来演示一些常见的安全漏洞,并提供解决方案。最后,我们将强调培养良好的安全意识对于维护个人和组织的信息安全的重要性。
|
8天前
|
安全 网络安全 数据安全/隐私保护
网络安全与信息安全:守护数字世界的坚盾
在数字化浪潮中,网络安全已成为维系现代社会正常运转的关键。本文旨在探讨网络安全漏洞的成因、加密技术的应用及安全意识的提升,以期为广大用户和技术人员提供实用的知识分享。通过对这些方面的深入剖析,我们期望能够共同构建一个更加安全可靠的数字环境。