详解灵骏智能算力之可预期高性能网络

简介: 从灵骏解析阿里云可预期高性能网络

首图-图标.png

【阅读原文】戳:详解灵骏智能算力之可预期高性能网络


8月30日下午,阿里云重磅发布飞天智算平台,其中新一代智能计算产品——「灵骏」闪亮登场!灵骏智能计算基于阿里云自研高性能可预期数据中心网络,可轻松支持集群扩展到万卡规模,实现端到端时延降低90%,从而为人工智能等应用提供高效的绿色算力。本文将为大家揭开阿里云高性能可预期数据中心网络的神秘面纱。


1.png

图 | 阿里云重磅发布新一代智能计算产品——「灵骏」


阿里云高性能可预期数据中心网络的核心技术包括:


●  自研High Performance Network(HPN)高性能网络架构;


●  基于自研交换机和智能网卡的端网融合核心技术体系;


统一的高性能网络服务平台,Network Unified Service Architecture (NUSA)。


其中,HPN网络架构采用双平面转发的2层clos无收敛结构(如下图所示),可支持最多超过1万张GPU的算力集群。双平面2层clos使得拓扑简单、规模增加的同时保持更低的单位成本,实现万卡GPU集群内部任意两点之间理论最小的静态转发时延,更多的转发链路也使得hash拥塞的概率尽量低,整体上实现集群算力性能的最优。HPN架构在设计之初就瞄准万卡高性能而设计,利用网络仿真平台NetMatrix进行流量模拟和架构仿真,打造了低时延高性能的智算网络架构。


2.png

图 | 阿里云双平面HPN网络架构


HPN架构确定了网络的理论最优性能,但由于网络本身是一个复杂的系统,所以如何让网络工作在最优状态同样是一个非常复杂的问题。为了解决这个问题,我们利用阿里云自研交换机(下图所示),并结合端侧的智能网卡,实现了端网融合的可预期数据中心网络,从而确保应用可以获得最佳性能。其中,我们利用带内网络遥测技术(Inband Network Telemetry, INT),并结合端侧实现的高精度拥塞控制算法(High Precision Congestion Control,HPCC),可以让端侧依据网络的实时状态做到更科学合理的流控决策。基于上述技术方案,可以显著降低交换机队列的抖动,从而在实现免PFC(Priority-based Flow Control)部署的同时,可以获得网络高带宽和低时延。基于HPCC与INT技术的结合,分布式机器学习应用可以用最短的时间在节点之间完成数据的传输,从而保证GPU持续处在高利用率水位,保证了集群算力的持续最大输出。另外,为了实现精确的多路径传输以及毫秒级的端到端故障规避和恢复,阿里自研交换机创新性的提出了hashlib技术。基于hashlib,端侧传输层协议可以感知网络设备的转发规则,还可以精确的指定报文传输的网络路径,从而实现真正的“无交叠/无拥塞”多路径传输。基于hashlib,上层应用软件可以结合自身业务特征,实现通信任务的高效编排,获得端到端的业务最优性能。


图片3.png

图 | 阿里云自研交换机


除此之外,高性能网络的高效稳定运行也是客户始终的核心诉求。为了实现这个目标,阿里云自研Network Unified Service Architecture (NUSA)高网统一服务平台,提供了从研发、测试、交付、运营和变更端到端的网络自动化服务能力。基于创新的端网融合技术体系,NUSA提供了自动化网络性能测量和诊断服务,自动化网络故障监控、告警和定位服务,全网资源管理和虚拟化服务。基于NUSA打造的普惠化高性能网络系统,让客户可以“放心用、省心用”阿里云自研高性能网络系统。


在过去几年,阿里云在高性能网络领域持续耕耘,诞生了HPN、HPCC、hashlib和NUSA等一系列核心技术,在保障上层关键业务高效稳定运行的同时,也使其享受到了可预期的高性能网络红利。未来,阿里云将在高性能网络领域进一步创新,并将重点在自研网络设备、新通信语义、自研协议等方面持续发力,和业界一起共同推动高性能网络的普惠化。欢迎对高性能网络领域感兴趣的专家加入我们,或和我们展开多种形式的合作。


相关文章
|
8月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
594 0
|
10月前
|
网络协议 算法 Java
基于Reactor模型的高性能网络库之Tcpserver组件-上层调度器
TcpServer 是一个用于管理 TCP 连接的类,包含成员变量如事件循环(EventLoop)、连接池(ConnectionMap)和回调函数等。其主要功能包括监听新连接、设置线程池、启动服务器及处理连接事件。通过 Acceptor 接收新连接,并使用轮询算法将连接分配给子事件循环(subloop)进行读写操作。调用链从 start() 开始,经由线程池启动和 Acceptor 监听,最终由 TcpConnection 管理具体连接的事件处理。
318 2
|
10月前
基于Reactor模型的高性能网络库之Tcpconnection组件
TcpConnection 由 subLoop 管理 connfd,负责处理具体连接。它封装了连接套接字,通过 Channel 监听可读、可写、关闭、错误等
272 1
|
10月前
|
负载均衡 算法 安全
基于Reactor模式的高性能网络库之线程池组件设计篇
EventLoopThreadPool 是 Reactor 模式中实现“一个主线程 + 多个工作线程”的关键组件,用于高效管理多个 EventLoop 并在多核 CPU 上分担高并发 I/O 压力。通过封装 Thread 类和 EventLoopThread,实现线程创建、管理和事件循环的调度,形成线程池结构。每个 EventLoopThread 管理一个子线程与对应的 EventLoop(subloop),主线程(base loop)通过负载均衡算法将任务派发至各 subloop,从而提升系统性能与并发处理能力。
514 3
|
10月前
基于Reactor模式的高性能网络库github地址
https://github.com/zyi30/reactor-net.git
222 0
|
8月前
|
人工智能 监控 数据可视化
如何破解AI推理延迟难题:构建敏捷多云算力网络
本文探讨了AI企业在突破算力瓶颈后,如何构建高效、稳定的网络架构以支撑AI产品化落地。文章分析了典型AI IT架构的四个层次——流量接入层、调度决策层、推理服务层和训练算力层,并深入解析了AI架构对网络提出的三大核心挑战:跨云互联、逻辑隔离与业务识别、网络可视化与QoS控制。最终提出了一站式网络解决方案,助力AI企业实现多云调度、业务融合承载与精细化流量管理,推动AI服务高效、稳定交付。
|
8月前
|
监控 前端开发 安全
Netty 高性能网络编程框架技术详解与实践指南
本文档全面介绍 Netty 高性能网络编程框架的核心概念、架构设计和实践应用。作为 Java 领域最优秀的 NIO 框架之一,Netty 提供了异步事件驱动的网络应用程序框架,用于快速开发可维护的高性能协议服务器和客户端。本文将深入探讨其 Reactor 模型、ChannelPipeline、编解码器、内存管理等核心机制,帮助开发者构建高性能的网络应用系统。
565 0
|
10月前
|
缓存 索引
基于Reactor模式的高性能网络库之缓冲区Buffer组件
Buffer 类用于处理 Socket I/O 缓存,负责数据读取、写入及内存管理。通过预分配空间和索引优化,减少内存拷贝与系统调用,提高网络通信效率,适用于 Reactor 模型中的异步非阻塞 IO 处理。
316 3
|
SQL 安全 网络安全
网络安全与信息安全:知识分享####
【10月更文挑战第21天】 随着数字化时代的快速发展,网络安全和信息安全已成为个人和企业不可忽视的关键问题。本文将探讨网络安全漏洞、加密技术以及安全意识的重要性,并提供一些实用的建议,帮助读者提高自身的网络安全防护能力。 ####
430 17
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
随着互联网的普及,网络安全问题日益突出。本文将从网络安全漏洞、加密技术和安全意识三个方面进行探讨,旨在提高读者对网络安全的认识和防范能力。通过分析常见的网络安全漏洞,介绍加密技术的基本原理和应用,以及强调安全意识的重要性,帮助读者更好地保护自己的网络信息安全。
335 10

热门文章

最新文章