一文详解阿里云AI大基建

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
对象存储 OSS,恶意文件检测 1000次 1年
简介: 一文详解阿里云AI大基建


编者按:面向 AI 时代,阿里云基础设施是如何创新与发展的?计算、网络、存储、服务器、集群、可观测等,阿里云全新升级的 AI Infra 到底有哪些重磅更新?基于阿里云副总裁、弹性计算和存储产品线负责人吴结生在 2024 云栖大会上的演讲,本文详解阿里云在 AI 时代的数字基础设施大布局和新进展。


01

AI时代需要什么样的云基础设施?


云计算一直在践行 Scaling Law,为千行百业的数字化升级提供大规模可扩展的算力、存力及网络等资源,满足客户业务规模的扩展、AI 模型的扩展等需求。云计算让AI变得更普惠,帮助客户在云上更加容易使用 AI 技术。


目前,中国有超过 50% 的大模型公司跑在阿里云上,80% 的科技企业运行在阿里云上。AI 发展对云基础设施提出了新要求


首先,AI 负载对计算提出了更大需求。一些前沿的大模型训练,每一年对算力需求的增长大概有 4-5 倍。比如 Llama-3.1-405B,对算力的需求较 Llama2.0 提升了 50 倍。IDC 数据也显示,最近几年中国智算的算力复合增长率为 33.9%。


其次,AI 负载对存储也提出了更高的需求。随着模型参数每年 10 倍增长,模型的数据集每年达到 50 倍增长,都需要更高性能的存力。


在模型训练过程里面,需要不停去打一些 Checkpoint,大小从几GB到几十GB,再到今天的几十TB,频率从小时或者几十分钟,到现在可能每一分钟就要打一个 Checkpoint。同时,大模型文件不断更新,怎么样在一个大规模的环境里面去分发和同步这些模型文件,对整个存储提出了更高的要求。


所以,随着AI技术的发展,云计算跟 AI 更紧密地融合,对阿里云基础设施提出了更高的要求。作为一个新形态的阿里云的基础设施,要具备三个特征:


第一,大规模、高性价比的 AI 基础设施,满足训练和推理需求。


第二,高性能、高可用的基础设施,实现业务的发展,保障业务的连续性。


第三,更易用、更智能的基础设施,提高开发效率和运维效率。


02

AI Infra要大规模、高性价比


阿里云构建了完整的 AI 基础设施,来满足训练和推理的规模化发展需求:


计算、存储、网络和安全等产品和服务,是坚实的基础;在此之上,通过先进的容器化技术进行算力的编排和管理;进而,通过 AI 智算平台 PAI 来进行任务调度、编译优化,实现弹性扩展、容错以及迁移等能力,打造完整的阿里云 AI 技术服务栈。


99e6ca030ef25f9adef20068774c4ee8.jpg


在这个服务栈里面,阿里云进行了全栈优化,以提升系统稳定性和计算效率,整体AI基础设施的连续训练有效时长达到 99%,处于业界领先水平。


同时,通过通信、编译、显存使用等方面的优化来提升 GPU 使用的效率,整个 GPU 的使用效率 MFU(Model FLOPs Utilization)提升了 20% 以上。


为支撑大规模的模型训练和推理,阿里云打造了灵骏超级智算集群,主要包含四个重要组件:灵骏计算集群、HPN 高性能网络、磐久 AI 计算服务器以及 CPFS 高性能存储集群。


骏计算集群提供可扩容到 10 万张 GPU 卡规模的能力,同时在万卡的规模下性能线性增长率达到了 96%,性能网络吞吐的有效使用率也达到了 99%。基于CPFS,灵骏可提供 20TB/S 的超高吞吐并行存储能力。


1e74dcbfc8e0dd102ec667bb3e107f04.jpg


灵骏集群采用了 HPN7.0 网络架构。HPN7.0 架构是一个多轨和多平面的网络设计,可以支持单集群扩展到 10 万张卡的规模,并提升 GPU 计算效率。每台机器通过 3.2Tb/s 的高性能 RDMA 网络连接,保障了在大规模 GPU 集群联合的计算效率的提升。


同时,阿里云做了一系列网络方面的创新和优化,比如自研的 Solar RDMA 协议,提供了自适应的多路径的选择;自研 HPCC 的流控算法;网卡的自研和通信库的优化等等。通过这一系列网络的优化,实现在训练过程中最关键的集群通讯能力 1 倍的提升、对端到端的训练整体的性能提升 10% 以上的效果。


75c12136a52065f706a5c56a7ce14811.jpg


新升级磐久 AI 计算服务器。最新的磐久 AI 计算服务器支持 8 张或者 16 张  GPU 卡,每个服务器里面也配备了 3.2Tb/s 的 RDMA 网络能力,提供高性能网络,来形成一个超大规模的紧耦合的计算,提升 GPU 计算效率。


并且,每一台服务器还配有另外一张 400Gb/s 的网卡,来保障高效的访问存储以及通过 VPC 访问其他的云产品。


能效方面,磐久服务器使用了超钛金电源,能效比达到了 97%。同时,还研发一系列 AI 算法去预测 GPU 故障,故障预测准确率达到了 92%。通过这些努力,可实现主动性运维或者迁移,从而达到连续训练有效时长超过 99% 的高水平。


d0ae3b1a25861af62e009593d33233db.jpg


CPFS 端到端全链路性能提升。借助 400Gb/s 网卡以及 RDMA 通信的能力,CPFS 可提供单个客户端 25GB/s 吞吐,支持更大及更加频繁的 Checkpoint 的写,这可以更好地防止数据丢失,并提升训练的稳定性和可靠性。


同时,CPFS 在计算侧构建了一个分布式缓存系统进行加速。在后端则提供了 400MB/s/TiB 并行扩展能力,性能随着容量的扩展而线性扩展,在一个超大集群里可整体提供 20TB/s 的吞吐能力,这样使得在大模型训练里面可以更快打 Checkpoint,或者更快读 Checkpoint,以降低意外中断对模型训练的整体影响。


a3aad104e47a769dae13fe9f6d3e6e7f.jpg


另外,在今天多模态的训练里面,可能有大量的训练和推理数据在 OSS 里面,比如说客户的图片、视频。CPFS 既提供了相应的文件接口,同时也提供与 OSS 之间高效的数据流动能力,通过冷热数据分层进一步为客户节省成本。


03

云计算要高性能、高可用


对企业而言,云基础设施更是保障业务连续性的关键。阿里云以高性能、高可用为目标,持续夯实基础设施。


CIPU2.0全新升级


CIPU(Cloud Infrastructure Processing Unit)云基础设施处理器,是云的产物,是一个云技术发展的创举。从2017年开始阿里云就进行了探索,CIPU 成为阿里云基础设施的基石,也是差异化竞争力的一个来源。


最新发布的 CIPU2.0,在安全、稳定性、性能等方面全面提升


6605c3fcbed04931024e04dc65e11230.jpg


首先,CIPU2.0 整机稳定性提升 20%,让服务器更加稳定;其次,CIPU2.0 的带宽从 1.0 的 200Gb/s 上升到 2.0 的 400Gb/s,大幅提升 VPC 和 eRDMA 的能力,使得应用在云上更加高效运行;同时,EBS 存储达到了 360 万  IOPS,从 1.0 的 100 万上升到 360 万,整体的吞吐也从原来的 20GB/s 上升到 50GB/s,处在业界领先水平。


并且,CIPU2.0 也全方位提升弹性计算的安全能力。CIPU2.0 支持了多种可信任根,同时提供数据硬件加密能力,比如 VPC 通信可以通过 CIPU2.0 加密,在整个数据中心里面数据都是加密的,而访问 EBS 的数据也是通过 CIPU2.0 进行了加密。在这之上,CIPU2.0 提供了整个可信的信任链以及可信的运行环境。


此外,CIPU2.0 应用在 GPU 服务器里可提升推理效率,通过网络和存储等能力的增强,跨机推理效率也会相应提升。


ECS九代企业级实例发布


在通用计算领域,阿里云与英特尔、AMD 紧密合作,基于最新芯片,融合CIPU2.0 的架构,即将发布第九代 ECS 企业实例。与第八代英特尔实例相比,第九代 g9i 实例在 Web 应用领域性能提升了 20%,在数据库领域性能提升了17%;与第八代 AMD 实例相比,第九代 g9a 实例在大数据场景领域里面提升了 20%,在搜索和推荐里面场景里面提升 30%。


25204771a46626356295d369122b057c.jpg


除了 X86、英特尔和 AMD 实例以外,阿里云也不断在发展 ARM 实例,基于 ARM 的平头哥倚天 710 服务器芯片进行全栈优化,使得倚天在若干个典型场景里面获得性能优势。比如在大数据处理 Spark 场景下,倚天实例与第八代 X86 性能相比有 14% 的性能优势;在视频转码领域,有 30% 的性能优势。


容器计算为AI加速


容器改变了整个软件开发和部署的方式,成为一个新的开发范式。阿里云提供 ACS 容器计算服务以及 ACK 容器服务,帮助客户构建、部署和管理容器化的应用。


容器计算服务 ACS 是阿里云的一个创新,以 K8s 为用户界面,提供了一个Serverless 的容器服务。


ACS 提供更加弹性的和柔性的计算的实例规格,比如可以从 0.25 个 vCPU 这样一个小规模开始,以一个比较小的步长递进,从而更加贴近应用负载需求、降低成本;其次,创新支持 CPU 原地的热变配,比如说当你的应用负载下降的时候,相应的资源可动态下降达到既保障性能又降低成本的效果。


ACS 的弹性能力也进行了进一步的扩展,每分钟可以进行 1 万个 Pod 扩展。除了按量付费以外,阿里云还提供了按天的节省计划,费用最多可节省 50% 以上。除此之外,今年年底,阿里云将提供基于 GPU 的 ACS 容器计算服务,进一步提升 GPU 的使用效率,降低成本,提高开发和运维的效率。


e6d4a40c63b6650735e0bd028eea495c.jpg


ACK 容器服务能力全面升级。首先结合分布式缓存 Fluid,以及 ACR 容器镜像服务 P2P 分发能力,大规模训练冷启动时间降低 85% 以上。容器服务也深度集成了 ECS 的弹性 RDMA 的能力,总体上容器网络的吞吐提升了 30%。通过 ACK 扩展节点进行了一系列优化,弹性扩容的效率提升了 25%。同时,优化 K8s 管控链,整体上 ACK 可以去管控 15,000 个计算节点的规模。


27e55743cf2dce5b7bbf08464befb465.jpg


存储面向AI深度优化


在存储领域,阿里云对象存储 OSS 面向不同计算引擎、面向多种 AI 框架进行了深度的集成,形成了统一的存储。


OSS 对象存储上跑有 2 万多个数据湖,可支持十余个不同的计算引擎及 AI 框架。OSS 提供不同类型的冷、热、归档存储,并提供自动的 Lifecycle(生命周期的管理)实现数据流转,实现成本优化。除此之外,OSS 针对 AI 及机器学习进行大量优化,并与大量开源分析引擎、阿里云分析产品等进行集成,实现了高性能和简单方便的集成。


4af6591c52ac914de7cbf92519fbb40d.jpg

面向 AI/ML 负载,OSS 进一步优化,并推出 4 个不同的能力:


第一,升级了整体上 SDK 的能力,特别对 Python 和 Go 语言的 SDK,性能提高 30 倍以上;


第二,OSS 通过 OSSFS 提供了一个文件接口的访问,直读模式性能提升了 3~6 倍,给中小模型文件的训练或者推理提供一个很好的选择;


第三,在 OSS 服务端提供 OSS 加速器,能够把一些热的数据放到 OSS 加速器里面,可以分发到更多的机器上面去;


第四,OSS 也做了很多 AI 框架的连接器,能够让更多数据的预处理、数据的打标、小模型的训练和推理变高效。


b7d2cfb166badced09d5e1b68527f7b4.jpg


随着 AI 技术和应用的发展,使用 OSS 的模式发生了改变,OSS 全新推出资源池 QoS 能力。一个常见的场景是客户有多种不同的数据,分布在不同的存储桶(Bucket)里面,被多个业务方共享。这里需要提供多个桶之间性能的共享,但同时又保障不同业务的性能的隔离。


OSS 提供了资源池 QoS 功能,一方面多个存储桶形成一个资源池,共享叠加的性能;另一方面,灵活配置 QoS 策略,降低各个业务之间的相互影响。


高性能网络持续演进


云网络方面,稳定的高性能至关重要,阿里云是如何破解高性能的稳定性难题的?这里重点介绍一个跨区域的主动式重路由的技术。


当网络通信有扰动产生时,系统会主动监测出来,然后去把它重新路由到另外一条路径上去。去年阿里云发布了跨区域的主动式重路由技术。现在,这一技术已运用到跨数据中心的通信里面来,从而在跨数据中心通信上,实现秒级内重新路由,提供一个更加稳定的网络通信延迟。


9260ca4fd60f7af9ccd5b01d19c39483.jpg



04

让基础设施更易用、更智能



云计算既为企业提供服务,同时也为开发者设计,用户的开发体验、开发效率、运维效率至关重要。阿里云不断演进基础设施、产品和服务,使其更易用、更智能。


控制台是用户上云第一入口。近年来,阿里云在控制台操作的简易性、效率等方面作了大量优化,让用户在使用控制台的时候有更好的体验。同时,推出多种 AI 助手,进行智能推荐和智能问答。此外,还提供了 Infrastructure as Code 等能力,通过构建更多的 CloudOps 工具,来帮助客户提升部署、管理和运维的效率。


对企业和开发者而言,会非常关心两件事情:第一件事情是自己的应用跑得怎么样?第二件事是使用阿里云的产品和服务,性能、容量、规模到底怎么样?这是可观测性的关注重点。通过一系列的 CloudLens 的服务,阿里云帮助客户分析可用性、性能、成本、容量、安全等,从而提升运维效率、提高业务系统稳定性、降低成本。


e7e75a31056713c3e02cc96d27c69c1f.jpg


/ END /

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
5天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
17天前
|
人工智能 Java Serverless
阿里云函数计算助力AI大模型快速部署
随着人工智能技术的快速发展,AI大模型已经成为企业数字化转型的重要工具。然而,对于许多业务人员、开发者以及企业来说,探索和利用AI大模型仍然面临诸多挑战。业务人员可能缺乏编程技能,难以快速上手AI模型;开发者可能受限于GPU资源,无法高效构建和部署AI应用;企业则希望简化技术门槛,以更低的成本和更高的效率利用AI大模型。
84 12
|
8天前
|
机器学习/深度学习 人工智能 运维
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
阿里云技术公开课预告:Elastic和阿里云搜索技术专家将深入解读阿里云Elasticsearch Enterprise版的AI功能及其在实际应用。
阿里云技术公开课直播预告:基于阿里云 Elasticsearch 构建 AI 搜索和可观测 Chatbot
|
6天前
|
人工智能 大数据 测试技术
自主和开放并举 探索下一代阿里云AI基础设施固件创新
12月13日,固件产业技术创新联盟产业峰会在杭州举行,阿里云主导的开源固件测试平台发布和PCIe Switch固件技术亮相,成为会议焦点。
|
21天前
|
人工智能 NoSQL MongoDB
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
阿里云与MongoDB庆祝合作五周年,展望AI赋能新未来
|
15天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
22天前
|
人工智能 数据可视化 专有云
阿里云飞天企业版获评2024年AI云典型案例
近日,由全球数字经济大会组委会主办、中国信息通信研究院和中国通信企业协会承办的“云·AI·计算国际合作论坛”作为2024全球数字经济大会系列活动之一,在北京举办。论坛以“智启云端,算绘蓝图”为主题,围绕云·AI·计算产业发展、关键技术、最佳实践等展开交流讨论。阿里云飞天企业版异构算力调度平台获评2024年AI云典型案例。
|
1天前
|
人工智能
阿里云领跑生成式AI工程领域,两大维度排名Gartner®生成式AI工程Market Quadrant全球第二
阿里云凭借强劲实力入选Gartner 《Innovation Guide for Generative AI Technologies》所有领域的新兴领导者象限。
|
27天前
|
存储 人工智能 缓存
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。
|
22天前
|
人工智能 Kubernetes Cloud Native
荣获2024年AI Cloud Native典型案例,阿里云容器产品技术能力获认可
2024全球数字经济大会云·AI·计算创新发展大会,阿里云容器服务团队携手客户,荣获“2024年AI Cloud Native典型案例”。