NVIDIA AI 新网络助力龙蜥提升网络通信速率

简介: 面向新 AI 数据中心,网络如何改进?

编者按:AI 不仅影响操作系统自身和上层应用生态,它也推动数据中心以及内部网络。在 2023 龙蜥操作系统大会全面拥抱智算时代分论坛上,NVIDIA 网络产品部亚太区高级总监宋庆春分享了 AI 新网络在龙蜥操作系统的支持情况,以及 NVIDIA 网络在 AI 方面最新的一些进展状况和看法。以下为分享原文:


(图/NVIDIA 网络产品部亚太区高级总监宋庆春)


AI 新网络解决的是什么问题?那在新网络中主要解决以下两个问题:第一是在东西向上以性能至上,要将 AI 性能发挥到最佳。第二在南北向要做 offload,因为南北向上有各种操作,通过新网络技术将各种操作 offload 出来放在最合适的地方,让南北向操作都发挥最佳的性能,同时不浪费资源。


未来数据中心的发展趋势

数据中心成为了计算机。随着数据中心的发展,现在国内的算力资源中通用算力占绝大多数,接下来是智算算力、超算算力。在一到两年内智算算力会成为国内算力的主要组成部分,超越通用算力,因为应用场景在发生变化,传统的数据中心不再是发展趋势。未来会向 AI 工厂和生成式 AI 云两个方向进行发展,成为数据中心发展的新趋势。



AI 工厂要构建一个非常庞大的数据中心,在数据中心中跑一个或者少数业务,规模很大,但因为跑的业务很少,所以需要集中成千上万的 CPU、GPU 跑单一业务。因此 AI 工厂要求性能非常高,单一的 CPU、GPU 已经不能解决,网络才是关键。当构建到几十万台服务器时,性能的好坏取决于网络。在 AI 工厂中 NVLink 网络加上 InfiniBand 网络是最佳组合

生成式 AI 云在如此庞大的市场中需要有很强的算力和云的灵活性,为此 NVIDIA 推出新一代网络。随着大模型的出现,一年内已经掀翻了很多传统模式,在未来这样的趋势会越来越明显。传统的数据中心架构会变得越来越少,未来的数据中心会朝着 AI 工厂和生成式 AI 云方向发展。


未来数据中心的网络架构需要专门面向 AI 的网络。



AI 数据中心中是成千上万的机器在运行业务,如果业务的耦合性很强,每一个CPU、服务器的快慢都会影响到业务的性能。由于是成千上万的机器联合作业,通信效率非常关键,因此需要用 RDMA 技术,它在通信时与 CPU 无关,扩展性不依赖于 CPU,增加新的计算点时不会影响到通信效率。此外对 Jitter、对抖动性容忍度很低,在跑一个业务时,其中某一个点如果低性能会影响到整个业务性能。在构建网络时为了能达到更高性能,要组织一个无抖动的网络。在 AI 业务场景中,通信是 bursty 突发式。



传统的数据中心无法解决 bursty 带来的这些问题,所以在传统的数据中心中运行业务时经常会产生很多拥塞,产生拥塞会带来通信的延迟很长,带宽被大大拉低。



为了解决该问题,NVIDIA 推出 Spectrum-X 业界第一个专门面向 AI 的以太网络,其中专门对 AI 业务做了端到端的优化,从 NCCL 到硬件、再到通信库做了一整套优化。


专门针对 NCCL 做了 RoCE 优化,通信上在 NCCL 和下面的通信库做了一整套优化。在以太网上率先实现了基于 adaptive 动态路由,让网络的通信效率基本上达到了百分之百(如果没有该动态路由,可以从数据中看到通信效率非常低),还增强了拥塞控制技术,在云上在跑多任务时实现多任务应用的性能隔离,很多任务运行在云上时可能之间会互相干扰,导致每个任务都无法达到理想的性能。通过性能隔离可以让每个任务都达到和跑一个业务时相同的性能,所以通过新的 AI 网络让网络的通信效率得以大大提升,其中包括了 Spectrum-4 交换机,DPU 和整个软件 stack,可以通过 docker 的方式来支持各种 OS。目前 docker 已经和龙蜥操作系统 Anolis OS 做完了融合,如果想要使用 Anolis OS ,可以直接通过 docker 镜像,使用 DPU 中的各种功能。


面向新AI数据,网络如何改进


上面介绍了 Spectrum-X,包括了 Spectrum-4 交换机和 BlueField-3 和上方的软件。


接下来介绍一下端到端 RDMA 的动态路由。上图中假如说有两个 message 需要发送到接收端,每个 message 中四个 packet,当 packet 到了网络上,网络会把 packet 分到所有网络的链路上。当这个 packet 到达了终点,由于传送过程中被分散到了整个网络后,到终点时有可能会出现包乱序,出现乱序后,在终点需要有能力把乱序的数据再重组,当应用看到数据时,是一个有序的数据。在网络可以接受乱序,只要应用看到的是有序的数据就可以,这样就需要 DPU 来做数据的乱序重组。通过这样的乱序重组、动态路由,可以让网络传输效率相比较传统的以太网络提升 1.6 倍



当网络传输效率提升 1.6 倍后,整个网络的通信效率达到了 95% 以上,接近了 100%,网络拥塞的问题可以相应解决,通信延迟大大降低,通信带宽也大幅提升,实现网络可预测的一个性能。



AI 网络相比较传统的以太网,左图是全球最大的一个云服务公司的业务场景。


在一个最优的选择情况下(最优任务 Placement),即将 AI 任务放在最理想的情况,例如做了各种各样的优化,在分配任务时完全按照优化的布置来分配任务。中间情况 Average placement 指正常把任务分发在云上,管理软件根据可用资源把 AI 任务分发下去。另外最差情况,比如有 100 台交换机,100 台交换机下挂了很多服务器,有一个 AI 任务需要 100 个 GPU,100 个 GPU 正好分配到 100 个交换机下,就是最差的情况。在以上三种不同的情况下,即使最优的情况,都无法达到全部带宽,而且性能每次使用时都不稳定,中间总是有抖动 jitter,无法达到最优的 AI 性能。通过 Spectrum-X 后,不管在哪一种状况下下都可以达到全部的带宽,而且没有 jitter,测试多少次最后看到的系统性能都一样。



为了能让用户容易使用到基于 Spectrum-X 的软件和硬件,NVIDIA 构建了基于 Spectrum-X 的 2000 个 GPU 的一个数据中心。


那 NVIDIA 是如何构建 AI 数据中心的?在构建中心时使用到了数据孪生技术,在构建物理数据中心前已经做了很多工作,构建了一个虚拟的数字数据中心。在数据中心上所有的配置、验证,都是在虚拟的环境中完成的。未来数据中心的趋势是利用数字孪生技术来快速构建数据中心。


DPU 在 AI 网络带来的价值


BlueField-3 在 AI 云上 BlueField 叫做 SuperNIC,主要面向东西向流量。在面向南北向流量,做流量南北向操作时叫 DPU,但是在做东西向性能加速时叫 SuperNIC,在 AI 网络中,主要功能还是 SuperNIC 功能。在动态路由、拥塞控制上 BlueField 不可或缺。在 Multi-Tenant 上也做了进一步性能优化,以及在完善生态系统上做了很多工作。



在 Multi-Tenant 环境中使用 Blue-Field 有什么好处?


BlueField 可以支持传统的基于 controller 多租户的平台,与传统网络相同。在 BlueField 上有一个功能,看上图左边中没有控制器 controller,所有的工作、租户之间的控制都由 BlueField 去做,只要增加了新的服务器,就可以横向扩展规模,服务器中的 BlueField 就可以加入到整个网络中,整个配置都由 BlueField 来做,包括交换机上怎么设置 policy 都不需要控制器去做,这样会更安全,扩展性更好。



BlueField 虽然被称为 SuperNIC,但还是由所有的可编程组件、加速组件组成。通过 Arm CPU 仍然可以做编程,还有内置的的 DPU 加速 engine,通过 DPU engine 可以使一些特定的应用得到更好的性能,还有可编程的 PIPELINE 组件来加速优化业务。



上图展示了从 Arm、DPU、PIPELINE 来进行编程业务的提升性能。



BlueField 依赖非常强大的一个软件生态,包括对各种各样基于 BlueField SuperNIC 和 BlueField DPU 上所有的软件都跑在 DOCA 上,在 DOCA 中体现,包括 NVIDIA  的 OFED driver,在未来都会整合到 DOCA 中。


目前 DOCA 支持了各种各样的 OS,特别是对于 Anolis OS 的整合已经完成,在使用 Anolis OS 时,可以容易地对接 DOCA,用到 NVIDIA 的各种网络加速引擎。


InfiniBand 网络


在 AI 应用场景中目前性能最好的是 InfiniBand 网络,不管像 Open AI 构建超过数万张卡这种超大规模的 AI 工厂,还是 Meta 或者微软在最高性能的 AI 平台中都在用 InfiniBand,InfiniBand 包括交换机、网卡、还有上图中所有的软件。



InfiniBand 与 Spectrum-X 有一个最大的差异:InfiniBand 网络可以支持网络计算,比如 Allreduce,包括现在越来越多的 AI 用户在用 Reduce/Scatter/Allgather 代替 Allreduce 来提升通信性能。但无论使用什么,都可以在交换机上来把集合计算的这些操作卸载下来,进一步提升通信的性能。


从传统的以太网再到专门面向 AI 的以太网,Spectrum-X 再到 InfiniBand,其实性能至上是关键,在整个基础平台不变的情况下支持网络升级,就可以得到非常高的性能提升,特别是通过 InfiniBand 网络甚至可以达到两倍以上的提升。对于计算平台来讲,选择一个合适的网络是非常关键的,网络决定了数据中心的性能。


精彩视频回放、课件获取:

2023 龙蜥操作系统大会直播回放及技术 PPT上线啦,欢迎点击下方链接观看~

回放链接:https://openanolis.cn/openanolisconference

技术 PPT :关注龙蜥公众号【OpenAnolis 龙蜥】,回复“龙蜥课件”获取。

相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
6月前
|
机器学习/深度学习 人工智能 算法
AI 基础知识从 0.6 到 0.7—— 彻底拆解深度神经网络训练的五大核心步骤
本文以一个经典的PyTorch手写数字识别代码示例为引子,深入剖析了简洁代码背后隐藏的深度神经网络(DNN)训练全过程。
1079 56
|
5月前
|
人工智能 云栖大会 调度
「2025云栖大会」“简单易用的智能云网络,加速客户AI创新”专场分论坛诚邀莅临
”简单易用的智能云网络,加速客户AI创新“专场分论坛将于9月24日13:30-17:00在云栖小镇D1-5号馆举办,本场技术分论坛将发布多项云网络创新成果,深度揭秘支撑AI时代的超低时延、自适应调度与跨域协同核心技术。同时来自领先企业的技术先锋将首次公开其在模型训练、企业出海等高复杂场景中的突破性实践,展现如何通过下一代云网络实现算力效率跃升与成本重构,定义AI时代网络新范式。
224 4
|
6月前
|
人工智能 安全 网络安全
2025攻防演习回顾,AI赋能下的网络安全新格局
网络安全实战攻防演习历经9年发展,已成为检验安全体系、洞察威胁趋势的重要手段。攻击呈现实战化、体系化特征,APT、0day、勒索攻击等手段升级,AI、大数据等新技术带来新风险。攻击入口多元化、工具智能化、API成重点目标,“AI+人工”协同攻击加剧威胁。面对挑战,企业需构建纵深防御体系,从被动防御转向主动对抗。瑞数信息通过动态安全技术与AI融合,实现0day防护、漏扫干扰、勒索应急等能力,打造WAAP超融合平台,助力关键基础设施构建智能、协同、前瞻的主动防御体系。
549 1
|
6月前
|
机器学习/深度学习 传感器 人工智能
深度神经网络驱动的AI Agent
深度神经网络(DNN)驱动的AI Agent在实时预测中展现出强大能力,能够通过在线学习快速适应变化,广泛应用于金融、自动驾驶等领域,提升预测效率与决策水平。
|
9月前
|
人工智能 运维 安全
中企出海大会|打造全球化云计算一张网,云网络助力中企出海和AI创新
阿里云网络作为全球化战略的重要组成部分,致力于打造具备AI技术服务能力和全球竞争力的云计算网络。通过高质量互联网服务、全球化网络覆盖等措施,支持企业高效出海。过去一年,阿里云持续加大基础设施投入,优化海外EIP、GA产品,强化金融科技与AI场景支持。例如,携程、美的等企业借助阿里云实现业务全球化;同时,阿里云网络在弹性、安全及性能方面不断升级,推动中企迎接AI浪潮并服务全球用户。
1315 8
|
5月前
|
人工智能 运维 安全
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
迈格网络推出“天机”新版本,以AI自学习、全端防护、主动安全三大核心能力,重构网络安全防线。融合AI引擎与DeepSeek-R1模型,实现威胁预测、零日防御、自动化响应,覆盖Web、APP、小程序全场景,助力企业从被动防御迈向主动免疫,护航数字化转型。
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
|
9月前
|
数据采集 机器学习/深度学习 人工智能
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
运维人的“福音”?AI 驱动的自动化网络监控到底香不香!
1077 0
|
5月前
|
人工智能 运维 安全
AI来了,网络安全运维还能靠“人海战术”吗?
AI来了,网络安全运维还能靠“人海战术”吗?
291 28
|
5月前
|
机器学习/深度学习 资源调度 算法框架/工具
AI-ANNE: 将神经网络迁移到微控制器的深度探索——论文阅读
AI-ANNE框架探索将深度学习模型迁移至微控制器的可行路径,基于MicroPython在Raspberry Pi Pico上实现神经网络核心组件,支持本地化推理,推动TinyML在边缘设备中的应用。
318 10
|
5月前
|
人工智能 安全 网络安全
从不确定性到确定性,“动态安全+AI”成网络安全破题密码
2025年国家网络安全宣传周以“网络安全为人民,靠人民”为主题,聚焦AI安全、个人信息保护等热点。随着AI技术滥用加剧,智能化攻击频发,瑞数信息推出“动态安全+AI”防护体系,构建“三层防护+两大闭环”,实现风险前置识别与全链路防控,助力企业应对新型网络威胁,筑牢数字时代安全防线。(238字)
260 1

热门文章

最新文章