一文详解阿里云AI大基建

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 一文详解阿里云AI大基建


编者按:面向 AI 时代,阿里云基础设施是如何创新与发展的?计算、网络、存储、服务器、集群、可观测等,阿里云全新升级的 AI Infra 到底有哪些重磅更新?基于阿里云副总裁、弹性计算和存储产品线负责人吴结生在 2024 云栖大会上的演讲,本文详解阿里云在 AI 时代的数字基础设施大布局和新进展。


01

AI时代需要什么样的云基础设施?


云计算一直在践行 Scaling Law,为千行百业的数字化升级提供大规模可扩展的算力、存力及网络等资源,满足客户业务规模的扩展、AI 模型的扩展等需求。云计算让AI变得更普惠,帮助客户在云上更加容易使用 AI 技术。


目前,中国有超过 50% 的大模型公司跑在阿里云上,80% 的科技企业运行在阿里云上。AI 发展对云基础设施提出了新要求


首先,AI 负载对计算提出了更大需求。一些前沿的大模型训练,每一年对算力需求的增长大概有 4-5 倍。比如 Llama-3.1-405B,对算力的需求较 Llama2.0 提升了 50 倍。IDC 数据也显示,最近几年中国智算的算力复合增长率为 33.9%。


其次,AI 负载对存储也提出了更高的需求。随着模型参数每年 10 倍增长,模型的数据集每年达到 50 倍增长,都需要更高性能的存力。


在模型训练过程里面,需要不停去打一些 Checkpoint,大小从几GB到几十GB,再到今天的几十TB,频率从小时或者几十分钟,到现在可能每一分钟就要打一个 Checkpoint。同时,大模型文件不断更新,怎么样在一个大规模的环境里面去分发和同步这些模型文件,对整个存储提出了更高的要求。


所以,随着AI技术的发展,云计算跟 AI 更紧密地融合,对阿里云基础设施提出了更高的要求。作为一个新形态的阿里云的基础设施,要具备三个特征:


第一,大规模、高性价比的 AI 基础设施,满足训练和推理需求。


第二,高性能、高可用的基础设施,实现业务的发展,保障业务的连续性。


第三,更易用、更智能的基础设施,提高开发效率和运维效率。


02

AI Infra要大规模、高性价比


阿里云构建了完整的 AI 基础设施,来满足训练和推理的规模化发展需求:


计算、存储、网络和安全等产品和服务,是坚实的基础;在此之上,通过先进的容器化技术进行算力的编排和管理;进而,通过 AI 智算平台 PAI 来进行任务调度、编译优化,实现弹性扩展、容错以及迁移等能力,打造完整的阿里云 AI 技术服务栈。


99e6ca030ef25f9adef20068774c4ee8.jpg


在这个服务栈里面,阿里云进行了全栈优化,以提升系统稳定性和计算效率,整体AI基础设施的连续训练有效时长达到 99%,处于业界领先水平。


同时,通过通信、编译、显存使用等方面的优化来提升 GPU 使用的效率,整个 GPU 的使用效率 MFU(Model FLOPs Utilization)提升了 20% 以上。


为支撑大规模的模型训练和推理,阿里云打造了灵骏超级智算集群,主要包含四个重要组件:灵骏计算集群、HPN 高性能网络、磐久 AI 计算服务器以及 CPFS 高性能存储集群。


骏计算集群提供可扩容到 10 万张 GPU 卡规模的能力,同时在万卡的规模下性能线性增长率达到了 96%,性能网络吞吐的有效使用率也达到了 99%。基于CPFS,灵骏可提供 20TB/S 的超高吞吐并行存储能力。


1e74dcbfc8e0dd102ec667bb3e107f04.jpg


灵骏集群采用了 HPN7.0 网络架构。HPN7.0 架构是一个多轨和多平面的网络设计,可以支持单集群扩展到 10 万张卡的规模,并提升 GPU 计算效率。每台机器通过 3.2Tb/s 的高性能 RDMA 网络连接,保障了在大规模 GPU 集群联合的计算效率的提升。


同时,阿里云做了一系列网络方面的创新和优化,比如自研的 Solar RDMA 协议,提供了自适应的多路径的选择;自研 HPCC 的流控算法;网卡的自研和通信库的优化等等。通过这一系列网络的优化,实现在训练过程中最关键的集群通讯能力 1 倍的提升、对端到端的训练整体的性能提升 10% 以上的效果。


75c12136a52065f706a5c56a7ce14811.jpg


新升级磐久 AI 计算服务器。最新的磐久 AI 计算服务器支持 8 张或者 16 张  GPU 卡,每个服务器里面也配备了 3.2Tb/s 的 RDMA 网络能力,提供高性能网络,来形成一个超大规模的紧耦合的计算,提升 GPU 计算效率。


并且,每一台服务器还配有另外一张 400Gb/s 的网卡,来保障高效的访问存储以及通过 VPC 访问其他的云产品。


能效方面,磐久服务器使用了超钛金电源,能效比达到了 97%。同时,还研发一系列 AI 算法去预测 GPU 故障,故障预测准确率达到了 92%。通过这些努力,可实现主动性运维或者迁移,从而达到连续训练有效时长超过 99% 的高水平。


d0ae3b1a25861af62e009593d33233db.jpg


CPFS 端到端全链路性能提升。借助 400Gb/s 网卡以及 RDMA 通信的能力,CPFS 可提供单个客户端 25GB/s 吞吐,支持更大及更加频繁的 Checkpoint 的写,这可以更好地防止数据丢失,并提升训练的稳定性和可靠性。


同时,CPFS 在计算侧构建了一个分布式缓存系统进行加速。在后端则提供了 400MB/s/TiB 并行扩展能力,性能随着容量的扩展而线性扩展,在一个超大集群里可整体提供 20TB/s 的吞吐能力,这样使得在大模型训练里面可以更快打 Checkpoint,或者更快读 Checkpoint,以降低意外中断对模型训练的整体影响。


a3aad104e47a769dae13fe9f6d3e6e7f.jpg


另外,在今天多模态的训练里面,可能有大量的训练和推理数据在 OSS 里面,比如说客户的图片、视频。CPFS 既提供了相应的文件接口,同时也提供与 OSS 之间高效的数据流动能力,通过冷热数据分层进一步为客户节省成本。


03

云计算要高性能、高可用


对企业而言,云基础设施更是保障业务连续性的关键。阿里云以高性能、高可用为目标,持续夯实基础设施。


CIPU2.0全新升级


CIPU(Cloud Infrastructure Processing Unit)云基础设施处理器,是云的产物,是一个云技术发展的创举。从2017年开始阿里云就进行了探索,CIPU 成为阿里云基础设施的基石,也是差异化竞争力的一个来源。


最新发布的 CIPU2.0,在安全、稳定性、性能等方面全面提升


6605c3fcbed04931024e04dc65e11230.jpg


首先,CIPU2.0 整机稳定性提升 20%,让服务器更加稳定;其次,CIPU2.0 的带宽从 1.0 的 200Gb/s 上升到 2.0 的 400Gb/s,大幅提升 VPC 和 eRDMA 的能力,使得应用在云上更加高效运行;同时,EBS 存储达到了 360 万  IOPS,从 1.0 的 100 万上升到 360 万,整体的吞吐也从原来的 20GB/s 上升到 50GB/s,处在业界领先水平。


并且,CIPU2.0 也全方位提升弹性计算的安全能力。CIPU2.0 支持了多种可信任根,同时提供数据硬件加密能力,比如 VPC 通信可以通过 CIPU2.0 加密,在整个数据中心里面数据都是加密的,而访问 EBS 的数据也是通过 CIPU2.0 进行了加密。在这之上,CIPU2.0 提供了整个可信的信任链以及可信的运行环境。


此外,CIPU2.0 应用在 GPU 服务器里可提升推理效率,通过网络和存储等能力的增强,跨机推理效率也会相应提升。


ECS九代企业级实例发布


在通用计算领域,阿里云与英特尔、AMD 紧密合作,基于最新芯片,融合CIPU2.0 的架构,即将发布第九代 ECS 企业实例。与第八代英特尔实例相比,第九代 g9i 实例在 Web 应用领域性能提升了 20%,在数据库领域性能提升了17%;与第八代 AMD 实例相比,第九代 g9a 实例在大数据场景领域里面提升了 20%,在搜索和推荐里面场景里面提升 30%。


25204771a46626356295d369122b057c.jpg


除了 X86、英特尔和 AMD 实例以外,阿里云也不断在发展 ARM 实例,基于 ARM 的平头哥倚天 710 服务器芯片进行全栈优化,使得倚天在若干个典型场景里面获得性能优势。比如在大数据处理 Spark 场景下,倚天实例与第八代 X86 性能相比有 14% 的性能优势;在视频转码领域,有 30% 的性能优势。


容器计算为AI加速


容器改变了整个软件开发和部署的方式,成为一个新的开发范式。阿里云提供 ACS 容器计算服务以及 ACK 容器服务,帮助客户构建、部署和管理容器化的应用。


容器计算服务 ACS 是阿里云的一个创新,以 K8s 为用户界面,提供了一个Serverless 的容器服务。


ACS 提供更加弹性的和柔性的计算的实例规格,比如可以从 0.25 个 vCPU 这样一个小规模开始,以一个比较小的步长递进,从而更加贴近应用负载需求、降低成本;其次,创新支持 CPU 原地的热变配,比如说当你的应用负载下降的时候,相应的资源可动态下降达到既保障性能又降低成本的效果。


ACS 的弹性能力也进行了进一步的扩展,每分钟可以进行 1 万个 Pod 扩展。除了按量付费以外,阿里云还提供了按天的节省计划,费用最多可节省 50% 以上。除此之外,今年年底,阿里云将提供基于 GPU 的 ACS 容器计算服务,进一步提升 GPU 的使用效率,降低成本,提高开发和运维的效率。


e6d4a40c63b6650735e0bd028eea495c.jpg


ACK 容器服务能力全面升级。首先结合分布式缓存 Fluid,以及 ACR 容器镜像服务 P2P 分发能力,大规模训练冷启动时间降低 85% 以上。容器服务也深度集成了 ECS 的弹性 RDMA 的能力,总体上容器网络的吞吐提升了 30%。通过 ACK 扩展节点进行了一系列优化,弹性扩容的效率提升了 25%。同时,优化 K8s 管控链,整体上 ACK 可以去管控 15,000 个计算节点的规模。


27e55743cf2dce5b7bbf08464befb465.jpg


存储面向AI深度优化


在存储领域,阿里云对象存储 OSS 面向不同计算引擎、面向多种 AI 框架进行了深度的集成,形成了统一的存储。


OSS 对象存储上跑有 2 万多个数据湖,可支持十余个不同的计算引擎及 AI 框架。OSS 提供不同类型的冷、热、归档存储,并提供自动的 Lifecycle(生命周期的管理)实现数据流转,实现成本优化。除此之外,OSS 针对 AI 及机器学习进行大量优化,并与大量开源分析引擎、阿里云分析产品等进行集成,实现了高性能和简单方便的集成。


4af6591c52ac914de7cbf92519fbb40d.jpg

面向 AI/ML 负载,OSS 进一步优化,并推出 4 个不同的能力:


第一,升级了整体上 SDK 的能力,特别对 Python 和 Go 语言的 SDK,性能提高 30 倍以上;


第二,OSS 通过 OSSFS 提供了一个文件接口的访问,直读模式性能提升了 3~6 倍,给中小模型文件的训练或者推理提供一个很好的选择;


第三,在 OSS 服务端提供 OSS 加速器,能够把一些热的数据放到 OSS 加速器里面,可以分发到更多的机器上面去;


第四,OSS 也做了很多 AI 框架的连接器,能够让更多数据的预处理、数据的打标、小模型的训练和推理变高效。


b7d2cfb166badced09d5e1b68527f7b4.jpg


随着 AI 技术和应用的发展,使用 OSS 的模式发生了改变,OSS 全新推出资源池 QoS 能力。一个常见的场景是客户有多种不同的数据,分布在不同的存储桶(Bucket)里面,被多个业务方共享。这里需要提供多个桶之间性能的共享,但同时又保障不同业务的性能的隔离。


OSS 提供了资源池 QoS 功能,一方面多个存储桶形成一个资源池,共享叠加的性能;另一方面,灵活配置 QoS 策略,降低各个业务之间的相互影响。


高性能网络持续演进


云网络方面,稳定的高性能至关重要,阿里云是如何破解高性能的稳定性难题的?这里重点介绍一个跨区域的主动式重路由的技术。


当网络通信有扰动产生时,系统会主动监测出来,然后去把它重新路由到另外一条路径上去。去年阿里云发布了跨区域的主动式重路由技术。现在,这一技术已运用到跨数据中心的通信里面来,从而在跨数据中心通信上,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。


9260ca4fd60f7af9ccd5b01d19c39483.jpg



04

让基础设施更易用、更智能



云计算既为企业提供服务,同时也为开发者设计,用户的开发体验、开发效率、运维效率至关重要。阿里云不断演进基础设施、产品和服务,使其更易用、更智能。


控制台是用户上云第一入口。近年来,阿里云在控制台操作的简易性、效率等方面作了大量优化,让用户在使用控制台的时候有更好的体验。同时,推出多种 AI 助手,进行智能推荐和智能问答。此外,还提供了 Infrastructure as Code 等能力,通过构建更多的 CloudOps 工具,来帮助客户提升部署、管理和运维的效率。


对企业和开发者而言,会非常关心两件事情:第一件事情是自己的应用跑得怎么样?第二件事是使用阿里云的产品和服务,性能、容量、规模到底怎么样?这是可观测性的关注重点。通过一系列的 CloudLens 的服务,阿里云帮助客户分析可用性、性能、成本、容量、安全等,从而提升运维效率、提高业务系统稳定性、降低成本。


e7e75a31056713c3e02cc96d27c69c1f.jpg


/ END /

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
5天前
|
人工智能 编解码
For Her:阿里云携手国际奥委会推出AI修复影片《永不失色的她》
For Her:阿里云携手国际奥委会推出AI修复影片《永不失色的她》
|
4天前
|
人工智能 机器人
阿里云AI机器人向你发来了一项挑战!
阿里云AI机器人向你发来了一项挑战!
|
5天前
|
人工智能 自然语言处理 算法
阿里云「AI实时互动」正式上线,体验“超拟人”智能互动
阿里云「AI实时互动」正式上线,体验“超拟人”智能互动
|
5天前
|
人工智能 智能设计 物联网
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
阿里云设计中心携手金鸡电影节青年创作人,用AI技术加速电影工业升级
|
5天前
|
人工智能 编解码 测试技术
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
阿里云通义千问发布多款AI大模型 多模态、长文本能力全面升级!
|
2天前
|
存储 机器学习/深度学习 人工智能
Elasticsearch:使用阿里云 AI 服务进行向量化和重新排名
本文介绍了如何将阿里云 AI 功能与 Elasticsearch 集成,以提高语义搜索的相关性。
206 0
|
4天前
|
云安全 人工智能 安全
阿里云欧阳欣:AI时代下的安全新范式
阿里云欧阳欣:AI时代下的安全新范式
|
5天前
|
人工智能 弹性计算 开发工具
新发布!阿里云发布最新AI模型、工具及基础设施,建构高效全球AI社群
新发布!阿里云发布最新AI模型、工具及基础设施,建构高效全球AI社群
|
5天前
|
人工智能
AI Everything Global 2025 圆满举办,一起回顾阿里云阿联酋之旅!
AI Everything Global 2025 圆满举办,一起回顾阿里云阿联酋之旅!
|
5天前
|
机器学习/深度学习 存储 人工智能
2024阿里云AI交出答卷,全球领先!
2024阿里云AI交出答卷,全球领先!

热门文章

最新文章