一文详解阿里云AI大基建

简介: 一文详解阿里云AI大基建


编者按:面向 AI 时代,阿里云基础设施是如何创新与发展的?计算、网络、存储、服务器、集群、可观测等,阿里云全新升级的 AI Infra 到底有哪些重磅更新?基于阿里云副总裁、弹性计算和存储产品线负责人吴结生在 2024 云栖大会上的演讲,本文详解阿里云在 AI 时代的数字基础设施大布局和新进展。


01

AI时代需要什么样的云基础设施?


云计算一直在践行 Scaling Law,为千行百业的数字化升级提供大规模可扩展的算力、存力及网络等资源,满足客户业务规模的扩展、AI 模型的扩展等需求。云计算让AI变得更普惠,帮助客户在云上更加容易使用 AI 技术。


目前,中国有超过 50% 的大模型公司跑在阿里云上,80% 的科技企业运行在阿里云上。AI 发展对云基础设施提出了新要求


首先,AI 负载对计算提出了更大需求。一些前沿的大模型训练,每一年对算力需求的增长大概有 4-5 倍。比如 Llama-3.1-405B,对算力的需求较 Llama2.0 提升了 50 倍。IDC 数据也显示,最近几年中国智算的算力复合增长率为 33.9%。


其次,AI 负载对存储也提出了更高的需求。随着模型参数每年 10 倍增长,模型的数据集每年达到 50 倍增长,都需要更高性能的存力。


在模型训练过程里面,需要不停去打一些 Checkpoint,大小从几GB到几十GB,再到今天的几十TB,频率从小时或者几十分钟,到现在可能每一分钟就要打一个 Checkpoint。同时,大模型文件不断更新,怎么样在一个大规模的环境里面去分发和同步这些模型文件,对整个存储提出了更高的要求。


所以,随着AI技术的发展,云计算跟 AI 更紧密地融合,对阿里云基础设施提出了更高的要求。作为一个新形态的阿里云的基础设施,要具备三个特征:


第一,大规模、高性价比的 AI 基础设施,满足训练和推理需求。


第二,高性能、高可用的基础设施,实现业务的发展,保障业务的连续性。


第三,更易用、更智能的基础设施,提高开发效率和运维效率。


02

AI Infra要大规模、高性价比


阿里云构建了完整的 AI 基础设施,来满足训练和推理的规模化发展需求:


计算、存储、网络和安全等产品和服务,是坚实的基础;在此之上,通过先进的容器化技术进行算力的编排和管理;进而,通过 AI 智算平台 PAI 来进行任务调度、编译优化,实现弹性扩展、容错以及迁移等能力,打造完整的阿里云 AI 技术服务栈。


99e6ca030ef25f9adef20068774c4ee8.jpg


在这个服务栈里面,阿里云进行了全栈优化,以提升系统稳定性和计算效率,整体AI基础设施的连续训练有效时长达到 99%,处于业界领先水平。


同时,通过通信、编译、显存使用等方面的优化来提升 GPU 使用的效率,整个 GPU 的使用效率 MFU(Model FLOPs Utilization)提升了 20% 以上。


为支撑大规模的模型训练和推理,阿里云打造了灵骏超级智算集群,主要包含四个重要组件:灵骏计算集群、HPN 高性能网络、磐久 AI 计算服务器以及 CPFS 高性能存储集群。


骏计算集群提供可扩容到 10 万张 GPU 卡规模的能力,同时在万卡的规模下性能线性增长率达到了 96%,性能网络吞吐的有效使用率也达到了 99%。基于CPFS,灵骏可提供 20TB/S 的超高吞吐并行存储能力。


1e74dcbfc8e0dd102ec667bb3e107f04.jpg


灵骏集群采用了 HPN7.0 网络架构。HPN7.0 架构是一个多轨和多平面的网络设计,可以支持单集群扩展到 10 万张卡的规模,并提升 GPU 计算效率。每台机器通过 3.2Tb/s 的高性能 RDMA 网络连接,保障了在大规模 GPU 集群联合的计算效率的提升。


同时,阿里云做了一系列网络方面的创新和优化,比如自研的 Solar RDMA 协议,提供了自适应的多路径的选择;自研 HPCC 的流控算法;网卡的自研和通信库的优化等等。通过这一系列网络的优化,实现在训练过程中最关键的集群通讯能力 1 倍的提升、对端到端的训练整体的性能提升 10% 以上的效果。


75c12136a52065f706a5c56a7ce14811.jpg


新升级磐久 AI 计算服务器。最新的磐久 AI 计算服务器支持 8 张或者 16 张  GPU 卡,每个服务器里面也配备了 3.2Tb/s 的 RDMA 网络能力,提供高性能网络,来形成一个超大规模的紧耦合的计算,提升 GPU 计算效率。


并且,每一台服务器还配有另外一张 400Gb/s 的网卡,来保障高效的访问存储以及通过 VPC 访问其他的云产品。


能效方面,磐久服务器使用了超钛金电源,能效比达到了 97%。同时,还研发一系列 AI 算法去预测 GPU 故障,故障预测准确率达到了 92%。通过这些努力,可实现主动性运维或者迁移,从而达到连续训练有效时长超过 99% 的高水平。


d0ae3b1a25861af62e009593d33233db.jpg


CPFS 端到端全链路性能提升。借助 400Gb/s 网卡以及 RDMA 通信的能力,CPFS 可提供单个客户端 25GB/s 吞吐,支持更大及更加频繁的 Checkpoint 的写,这可以更好地防止数据丢失,并提升训练的稳定性和可靠性。


同时,CPFS 在计算侧构建了一个分布式缓存系统进行加速。在后端则提供了 400MB/s/TiB 并行扩展能力,性能随着容量的扩展而线性扩展,在一个超大集群里可整体提供 20TB/s 的吞吐能力,这样使得在大模型训练里面可以更快打 Checkpoint,或者更快读 Checkpoint,以降低意外中断对模型训练的整体影响。


a3aad104e47a769dae13fe9f6d3e6e7f.jpg


另外,在今天多模态的训练里面,可能有大量的训练和推理数据在 OSS 里面,比如说客户的图片、视频。CPFS 既提供了相应的文件接口,同时也提供与 OSS 之间高效的数据流动能力,通过冷热数据分层进一步为客户节省成本。


03

云计算要高性能、高可用


对企业而言,云基础设施更是保障业务连续性的关键。阿里云以高性能、高可用为目标,持续夯实基础设施。


CIPU2.0全新升级


CIPU(Cloud Infrastructure Processing Unit)云基础设施处理器,是云的产物,是一个云技术发展的创举。从2017年开始阿里云就进行了探索,CIPU 成为阿里云基础设施的基石,也是差异化竞争力的一个来源。


最新发布的 CIPU2.0,在安全、稳定性、性能等方面全面提升


6605c3fcbed04931024e04dc65e11230.jpg


首先,CIPU2.0 整机稳定性提升 20%,让服务器更加稳定;其次,CIPU2.0 的带宽从 1.0 的 200Gb/s 上升到 2.0 的 400Gb/s,大幅提升 VPC 和 eRDMA 的能力,使得应用在云上更加高效运行;同时,EBS 存储达到了 360 万  IOPS,从 1.0 的 100 万上升到 360 万,整体的吞吐也从原来的 20GB/s 上升到 50GB/s,处在业界领先水平。


并且,CIPU2.0 也全方位提升弹性计算的安全能力。CIPU2.0 支持了多种可信任根,同时提供数据硬件加密能力,比如 VPC 通信可以通过 CIPU2.0 加密,在整个数据中心里面数据都是加密的,而访问 EBS 的数据也是通过 CIPU2.0 进行了加密。在这之上,CIPU2.0 提供了整个可信的信任链以及可信的运行环境。


此外,CIPU2.0 应用在 GPU 服务器里可提升推理效率,通过网络和存储等能力的增强,跨机推理效率也会相应提升。


ECS九代企业级实例发布


在通用计算领域,阿里云与英特尔、AMD 紧密合作,基于最新芯片,融合CIPU2.0 的架构,即将发布第九代 ECS 企业实例。与第八代英特尔实例相比,第九代 g9i 实例在 Web 应用领域性能提升了 20%,在数据库领域性能提升了17%;与第八代 AMD 实例相比,第九代 g9a 实例在大数据场景领域里面提升了 20%,在搜索和推荐里面场景里面提升 30%。


25204771a46626356295d369122b057c.jpg


除了 X86、英特尔和 AMD 实例以外,阿里云也不断在发展 ARM 实例,基于 ARM 的平头哥倚天 710 服务器芯片进行全栈优化,使得倚天在若干个典型场景里面获得性能优势。比如在大数据处理 Spark 场景下,倚天实例与第八代 X86 性能相比有 14% 的性能优势;在视频转码领域,有 30% 的性能优势。


容器计算为AI加速


容器改变了整个软件开发和部署的方式,成为一个新的开发范式。阿里云提供 ACS 容器计算服务以及 ACK 容器服务,帮助客户构建、部署和管理容器化的应用。


容器计算服务 ACS 是阿里云的一个创新,以 K8s 为用户界面,提供了一个Serverless 的容器服务。


ACS 提供更加弹性的和柔性的计算的实例规格,比如可以从 0.25 个 vCPU 这样一个小规模开始,以一个比较小的步长递进,从而更加贴近应用负载需求、降低成本;其次,创新支持 CPU 原地的热变配,比如说当你的应用负载下降的时候,相应的资源可动态下降达到既保障性能又降低成本的效果。


ACS 的弹性能力也进行了进一步的扩展,每分钟可以进行 1 万个 Pod 扩展。除了按量付费以外,阿里云还提供了按天的节省计划,费用最多可节省 50% 以上。除此之外,今年年底,阿里云将提供基于 GPU 的 ACS 容器计算服务,进一步提升 GPU 的使用效率,降低成本,提高开发和运维的效率。


e6d4a40c63b6650735e0bd028eea495c.jpg


ACK 容器服务能力全面升级。首先结合分布式缓存 Fluid,以及 ACR 容器镜像服务 P2P 分发能力,大规模训练冷启动时间降低 85% 以上。容器服务也深度集成了 ECS 的弹性 RDMA 的能力,总体上容器网络的吞吐提升了 30%。通过 ACK 扩展节点进行了一系列优化,弹性扩容的效率提升了 25%。同时,优化 K8s 管控链,整体上 ACK 可以去管控 15,000 个计算节点的规模。


27e55743cf2dce5b7bbf08464befb465.jpg


存储面向AI深度优化


在存储领域,阿里云对象存储 OSS 面向不同计算引擎、面向多种 AI 框架进行了深度的集成,形成了统一的存储。


OSS 对象存储上跑有 2 万多个数据湖,可支持十余个不同的计算引擎及 AI 框架。OSS 提供不同类型的冷、热、归档存储,并提供自动的 Lifecycle(生命周期的管理)实现数据流转,实现成本优化。除此之外,OSS 针对 AI 及机器学习进行大量优化,并与大量开源分析引擎、阿里云分析产品等进行集成,实现了高性能和简单方便的集成。


4af6591c52ac914de7cbf92519fbb40d.jpg

面向 AI/ML 负载,OSS 进一步优化,并推出 4 个不同的能力:


第一,升级了整体上 SDK 的能力,特别对 Python 和 Go 语言的 SDK,性能提高 30 倍以上;


第二,OSS 通过 OSSFS 提供了一个文件接口的访问,直读模式性能提升了 3~6 倍,给中小模型文件的训练或者推理提供一个很好的选择;


第三,在 OSS 服务端提供 OSS 加速器,能够把一些热的数据放到 OSS 加速器里面,可以分发到更多的机器上面去;


第四,OSS 也做了很多 AI 框架的连接器,能够让更多数据的预处理、数据的打标、小模型的训练和推理变高效。


b7d2cfb166badced09d5e1b68527f7b4.jpg


随着 AI 技术和应用的发展,使用 OSS 的模式发生了改变,OSS 全新推出资源池 QoS 能力。一个常见的场景是客户有多种不同的数据,分布在不同的存储桶(Bucket)里面,被多个业务方共享。这里需要提供多个桶之间性能的共享,但同时又保障不同业务的性能的隔离。


OSS 提供了资源池 QoS 功能,一方面多个存储桶形成一个资源池,共享叠加的性能;另一方面,灵活配置 QoS 策略,降低各个业务之间的相互影响。


高性能网络持续演进


云网络方面,稳定的高性能至关重要,阿里云是如何破解高性能的稳定性难题的?这里重点介绍一个跨区域的主动式重路由的技术。


当网络通信有扰动产生时,系统会主动监测出来,然后去把它重新路由到另外一条路径上去。去年阿里云发布了跨区域的主动式重路由技术。现在,这一技术已运用到跨数据中心的通信里面来,从而在跨数据中心通信上,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。


9260ca4fd60f7af9ccd5b01d19c39483.jpg



04

让基础设施更易用、更智能



云计算既为企业提供服务,同时也为开发者设计,用户的开发体验、开发效率、运维效率至关重要。阿里云不断演进基础设施、产品和服务,使其更易用、更智能。


控制台是用户上云第一入口。近年来,阿里云在控制台操作的简易性、效率等方面作了大量优化,让用户在使用控制台的时候有更好的体验。同时,推出多种 AI 助手,进行智能推荐和智能问答。此外,还提供了 Infrastructure as Code 等能力,通过构建更多的 CloudOps 工具,来帮助客户提升部署、管理和运维的效率。


对企业和开发者而言,会非常关心两件事情:第一件事情是自己的应用跑得怎么样?第二件事是使用阿里云的产品和服务,性能、容量、规模到底怎么样?这是可观测性的关注重点。通过一系列的 CloudLens 的服务,阿里云帮助客户分析可用性、性能、成本、容量、安全等,从而提升运维效率、提高业务系统稳定性、降低成本。


e7e75a31056713c3e02cc96d27c69c1f.jpg


/ END /

目录
相关文章
|
15天前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
19天前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
10天前
|
并行计算 前端开发 物联网
全网首发!真·从0到1!万字长文带你入门Qwen2.5-Coder——介绍、体验、本地部署及简单微调
2024年11月12日,阿里云通义大模型团队正式开源通义千问代码模型全系列,包括6款Qwen2.5-Coder模型,每个规模包含Base和Instruct两个版本。其中32B尺寸的旗舰代码模型在多项基准评测中取得开源最佳成绩,成为全球最强开源代码模型,多项关键能力超越GPT-4o。Qwen2.5-Coder具备强大、多样和实用等优点,通过持续训练,结合源代码、文本代码混合数据及合成数据,显著提升了代码生成、推理和修复等核心任务的性能。此外,该模型还支持多种编程语言,并在人类偏好对齐方面表现出色。本文为周周的奇妙编程原创,阿里云社区首发,未经同意不得转载。
|
23天前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
8天前
|
人工智能 自然语言处理 前端开发
什么?!通义千问也可以在线开发应用了?!
阿里巴巴推出的通义千问,是一个超大规模语言模型,旨在高效处理信息和生成创意内容。它不仅能在创意文案、办公助理、学习助手等领域提供丰富交互体验,还支持定制化解决方案。近日,通义千问推出代码模式,基于Qwen2.5-Coder模型,用户即使不懂编程也能用自然语言生成应用,如个人简历、2048小游戏等。该模式通过预置模板和灵活的自定义选项,极大简化了应用开发过程,助力用户快速实现创意。
|
5天前
|
云安全 存储 弹性计算
|
7天前
|
云安全 人工智能 自然语言处理
|
5天前
|
人工智能 C++ iOS开发
ollama + qwen2.5-coder + VS Code + Continue 实现本地AI 辅助写代码
本文介绍在Apple M4 MacOS环境下搭建Ollama和qwen2.5-coder模型的过程。首先通过官网或Brew安装Ollama,然后下载qwen2.5-coder模型,可通过终端命令`ollama run qwen2.5-coder`启动模型进行测试。最后,在VS Code中安装Continue插件,并配置qwen2.5-coder模型用于代码开发辅助。
368 4
|
5天前
|
缓存 Linux Docker
【最新版正确姿势】Docker安装教程(简单几步即可完成)
之前的老版本Docker安装教程已经发生了变化,本文分享了Docker最新版安装教程,其他操作系统版本也可以参考官 方的其他安装版本文档。
【最新版正确姿势】Docker安装教程(简单几步即可完成)
|
11天前
|
人工智能 自然语言处理 前端开发
用通义灵码,从 0 开始打造一个完整APP,无需编程经验就可以完成
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。本教程完全免费,而且为大家准备了 100 个降噪蓝牙耳机,送给前 100 个完成的粉丝。获奖的方式非常简单,只要你跟着教程完成第一课的内容就能获得。