详解灵骏智能算力之可预期高性能网络

简介: 从灵骏解析阿里云可预期高性能网络

首图-图标.png

【阅读原文】戳:详解灵骏智能算力之可预期高性能网络


8月30日下午,阿里云重磅发布飞天智算平台,其中新一代智能计算产品——「灵骏」闪亮登场!灵骏智能计算基于阿里云自研高性能可预期数据中心网络,可轻松支持集群扩展到万卡规模,实现端到端时延降低90%,从而为人工智能等应用提供高效的绿色算力。本文将为大家揭开阿里云高性能可预期数据中心网络的神秘面纱。


1.png

图 | 阿里云重磅发布新一代智能计算产品——「灵骏」


阿里云高性能可预期数据中心网络的核心技术包括:


●  自研High Performance Network(HPN)高性能网络架构;


●  基于自研交换机和智能网卡的端网融合核心技术体系;


统一的高性能网络服务平台,Network Unified Service Architecture (NUSA)。


其中,HPN网络架构采用双平面转发的2层clos无收敛结构(如下图所示),可支持最多超过1万张GPU的算力集群。双平面2层clos使得拓扑简单、规模增加的同时保持更低的单位成本,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得hash拥塞的概率尽量低,整体上实现集群算力性能的最优。HPN架构在设计之初就瞄准万卡高性能而设计,利用网络仿真平台NetMatrix进行流量模拟和架构仿真,打造了低时延高性能的智算网络架构。


2.png

图 | 阿里云双平面HPN网络架构


HPN架构确定了网络的理论最优性能,但由于网络本身是一个复杂的系统,所以如何让网络工作在最优状态同样是一个非常复杂的问题。为了解决这个问题,我们利用阿里云自研交换机(下图所示),并结合端侧的智能网卡,实现了端网融合的可预期数据中心网络,从而确保应用可以获得最佳性能。其中,我们利用带内网络遥测技术(Inband Network Telemetry, INT),并结合端侧实现的高精度拥塞控制算法(High Precision Congestion Control,HPCC),可以让端侧依据网络的实时状态做到更科学合理的流控决策。基于上述技术方案,可以显著降低交换机队列的抖动,从而在实现免PFC(Priority-based Flow Control)部署的同时,可以获得网络高带宽和低时延。基于HPCC与INT技术的结合,分布式机器学习应用可以用最短的时间在节点之间完成数据的传输,从而保证GPU持续处在高利用率水位,保证了集群算力的持续最大输出。另外,为了实现精确的多路径传输以及毫秒级的端到端故障规避和恢复,阿里自研交换机创新性的提出了hashlib技术。基于hashlib,端侧传输层协议可以感知网络设备的转发规则,还可以精确的指定报文传输的网络路径,从而实现真正的“无交叠/无拥塞”多路径传输。基于hashlib,上层应用软件可以结合自身业务特征,实现通信任务的高效编排,获得端到端的业务最优性能。


图片3.png

图 | 阿里云自研交换机


除此之外,高性能网络的高效稳定运行也是客户始终的核心诉求。为了实现这个目标,阿里云自研Network Unified Service Architecture (NUSA)高网统一服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。基于创新的端网融合技术体系,NUSA提供了自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和虚拟化服务。基于NUSA打造的普惠化高性能网络系统,让客户可以“放心用、省心用”阿里云自研高性能网络系统。


在过去几年,阿里云在高性能网络领域持续耕耘,诞生了HPN、HPCC、hashlib和NUSA等一系列核心技术,在保障上层关键业务高效稳定运行的同时,也使其享受到了可预期的高性能网络红利。未来,阿里云将在高性能网络领域进一步创新,并将重点在自研网络设备、新通信语义、自研协议等方面持续发力,和业界一起共同推动高性能网络的普惠化。欢迎对高性能网络领域感兴趣的专家加入我们,或和我们展开多种形式的合作。



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关文章
|
19天前
|
大数据 云计算
中国网络大会专题论坛 | 下一代超大规模高性能公共云网络
中国计算机学会ChinaNet上,阿里云洛神云网络将与知名学术届代表一起共话下一代超大规模高性能公共云网络的关键技术。
|
2月前
|
编解码 分布式计算 网络协议
Netty高性能网络框架(一)
Netty高性能网络框架(一)
|
1月前
|
存储 安全 5G
|
7天前
|
消息中间件 编解码 网络协议
Netty从入门到精通:高性能网络编程的进阶之路
【11月更文挑战第17天】Netty是一个基于Java NIO(Non-blocking I/O)的高性能、异步事件驱动的网络应用框架。使用Netty,开发者可以快速、高效地开发可扩展的网络服务器和客户端程序。本文将带您从Netty的背景、业务场景、功能点、解决问题的关键、底层原理实现,到编写一个详细的Java示例,全面了解Netty,帮助您从入门到精通。
25 0
|
18天前
|
机器学习/深度学习 人工智能 物联网
5G与AI融合:智能网络的新纪元
【10月更文挑战第25天】
38 3
|
9天前
|
大数据 云计算
2024 CCF中国网络大会专题论坛丨下一代超大规模高性能公共云网络 精彩回顾
中国计算机学会ChinaNet上,阿里云洛神云网络将与知名学术届代表一起共话下一代超大规模高性能公共云网络的关键技术。
|
2月前
|
机器学习/深度学习 数据采集 网络安全
使用Python实现深度学习模型:智能网络安全威胁检测
使用Python实现深度学习模型:智能网络安全威胁检测
207 5
|
2月前
|
5G 网络安全 SDN
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
网络功能虚拟化(NFV)和软件定义网络(SDN):赋能5G网络灵活、智能演进的关键
73 3
|
2月前
|
传感器 物联网 人机交互
物联网:物联网,作为新一代信息技术的重要组成部分,通过智能感知、识别技术与普适计算等通信感知技术,将各种信息传感设备与互联网结合起来而形成的一个巨大网络,实现了物物相连、人物相连,开启了万物互联的新时代。
在21世纪,物联网(IoT)作为新一代信息技术的核心,正以前所未有的速度重塑生活、工作和社会结构。本文首先介绍了物联网的概念及其在各领域的广泛应用,强调其技术融合性、广泛的应用范围以及数据驱动的特点。接着,详细阐述了物联网行业的现状和发展趋势,包括政策支持、关键技术突破和应用场景深化。此外,还探讨了物联网面临的挑战与机遇,并展望了其未来在技术创新和模式创新方面的潜力。物联网行业正以其独特魅力引领科技发展潮流,有望成为推动全球经济发展的新引擎。
|
5天前
|
存储 SQL 安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【10月更文挑战第39天】在数字化时代,网络安全和信息安全成为了我们生活中不可或缺的一部分。本文将介绍网络安全漏洞、加密技术和安全意识等方面的内容,帮助读者更好地了解网络安全的重要性,并提供一些实用的技巧和方法来保护自己的信息安全。
15 2