以下内容整理自“2025 AI势能大会”上,阿里云智能集团副总裁、阿里云弹性计算产品线、存储产品线负责人吴结生的演讲。
图:阿里云智能集团副总裁、阿里云弹性计算产品线负责人、存储产品线负责人吴结生
大家下午好,我是吴结生,很高兴能够在这里向大家分享阿里云在AI基础设施领域的技术创新成果与产品演进历程。
下图左侧可以看到AI负载的算力需求,其中有三个关于算力扩展的定义:
- 第一类是大家较为熟悉的预训练算力需求,即Pre-trainingScaling。
- 第二类是训练后的微调和对齐等算力需求,也就是Post-trainingScaling。
- 第三类是当下呈爆炸式增长的需求,即在推理及推理服务过程中进行深度思考和长时思考所需的计算算力,称之为Test-timeScaling。
这三类算力需求叠加,形成了指数级复合增长的态势,过去预测,算力需求大约每六个月增长一倍,如今进一步提速,大概每三个月就会增长一倍。从云计算角度看,该如何应对AI算力需求的增长?
我们认为云计算实际上有两个本质特征来满足AI算力的需求:
- 第一,“数据中心是一台计算机”。云计算将成千上万台计算机进行高效协同组织与管理,使其如同一台计算机一样工作,为我们提供灵活高效且可弹性扩缩容的计算算力,以满足AI算力扩展需求。
- 第二,“云计算是一种公共服务”。随着AI的发展,智能(Intelligence)发展成为一种资源,如同水和电这类公共资源一样。在智能成为资源的情况下,产生了一种新兴商品——智能Token。在阿里云,花大概六毛钱就能买到100万个智能Token。借助云上的AI工具、云上数据和算力,云计算正以公共服务的方式,为大家提供高性价比的智能Token商品,推动AI普及,让AI走进千行百业,加速AI实现大众化与规模化。
阿里云自创立以来,始终坚持采用全面系统性方法,进行端到端的协同优化。我们构建了高度优化的技术栈,涵盖IaaS(基础设施即服务)平台,PaaS(平台即服务)平台、以及MaaS(模型即服务)平台。基于这些高度优化的技术,我们提供了稳定、安全、可扩展、弹性、高性能且低成本的服务。在如今新的AI时代,这些能力和服务为AI负载提供了强大支撑。
以下内容将围绕技术创新和产品演进两部分展开。
AI时代云基础设施的技术创新
在计算领域,云基础设施处理器(CIPU)是我们一项关键的核心技术创新。CIPU能让百万级别的服务器更高效地组成一台计算机。同时,CIPU技术对业界熟知的数据处理单元(DPU)技术发展也产生了深刻影响。
CIPU技术创新有三个关键要点:
- 一是IO虚拟化分离。在常规计算虚拟化中,存储虚拟化、网络虚拟化等资源会占用主机CPU资源。而CIPU架构将IO虚拟化分离出来,把相关工作卸载到CIPU,如此一来,既可以为客户提供更多计算资源,又能将系统负载与客户负载分离,减少干扰。
- 二是在CIPU处理器中,对网络传输和存储访问进行大量硬件定制化和优化。常规CPU不擅长这类操作,CIPU则在硬件层面进行加速,大幅提升网络传输和存储访问的性能与效率。
- 三是强化了整体基础设施安全,并优化了服务器管理。这使得我们能更高效、敏捷地将算力资源云化,让数据中心内百万台服务器如同一台高效运作的计算机,协同工作。
CIPU从三个方面提升云基础设施的安全与稳定性:
- 其一,构建计算实例完整的全生命周期链路可信计算环境。
- 其二,助力网络和存储实现端到端数据链路校验及数据加密。
- 其三,帮助计算实例进行无感知热迁移,让客户在阿里云弹性计算服务中享有更稳定的算力。
在数据加速与存储访问方面,如前面所述,CIPU处理器发挥“专业的人干专业的事”这一理念,定制了专门的硬件加速功能,极大提升了网络传输和存储访问的效率。同时,通过一系列软硬件一体化设计,例如绕过(bypass)操作系统内核、运用IONUMA技术等优化手段,进一步提高数据访问和传输效率。
基于CIPU的这些技术创新,对于IO密集型或数据密集型负载,如数据库、大数据分析等应用在阿里云弹性计算平台上运行时,能产生更高的效益。
在存储领域,我们围绕盘古存储系统开展工作。盘古在稳定性、安全与效能方面持续创新演进,为客户提供坚实可靠的存储底座。
从稳定和安全角度,盘古存储系统在技术上不断演进。在稳定性方面,盘古采用多可用区(AZ)存储技术,可容忍单个数据中心级别的故障。同时,通过多副本技术、纠删码技术、全链路数据校验、周期性数据校验以及故障时的副本恢复技术,确保数据不丢不错。
在安全方面,充分发挥CIPU架构优势。在计算侧,借助CIPU架构构建安全的多租户隔离存储访问通道,并利用CIPU能力提升存储访问效率与性能。
在性能优化上,从上图左侧可见,常规分布式存储系统的存储引擎构建于Linux文件系统,需经过操作系统内核。而盘古构建了用户态文件存储引擎,完全绕过(bypass)操作系统内核,直接管理和分配磁盘,不仅提升了性能,还使高负载或高容量下的性能更稳定。
基于盘古的创新,从中间图能看到整体性能提升显著。在HDD存储上,吞吐率提高一倍;在SSD存储上,IOPS(每秒输入/输出操作次数)也提升一倍。右边图显示,在高容量高负载场景下,性能更高且更稳定。
凭借盘古的这些技术创新,我们构建了丰富的存储产品,包括对象存储OSS、块存储EBS、文件存储NAS和表格存储Tablestore。
在盘古的用户态存储引擎基础上,我们结合介质技术演进,进一步优化。例如,NVMe的SSD技术发展推出了新的ZNSSSD。我们针对这些技术开展多层的联合优化,创新研发了Recordstore存储引擎。该引擎旨在充分发挥ZNSSSD的性能,消除大量SSD内部开销,将更多SSD硬件能力提供给客户,提升整体效能。
SSD通常需要配置10%-15%的OP(OverProvisioning)的预留空间。而在Recordstore引擎下,我们取消了OP预留空间的需求,将这10%-15%的容量释放给存储产品和客户,间接降低了整体存储成本。
在写放大优化方面,我们进一步降低了SSD内部的写放大,使得SSD寿命提升40%。同时,我们联合存储产品、盘古以及磁盘系统进行全栈优化,减少了产品层大量垃圾回收操作,间接降低了网络带宽耗用,提升网络带宽利用率40%。
前面给大家介绍了用户态存储引擎以及在此基础上进一步研发的Recordstore存储引擎。接下来谈谈在高性能网络存储方面的演进与创新。相关创新与积累大致可分为三个阶段:
第一阶段:用户态LunaTCP。我们是业界首家基于DPDK实现用户态TCP协议的“生产系统级别”的厂家。为什么强调“生产级别”,是因为云存储对性能和稳定性要求极高,Luna在阿里云云存储产品中实现了大规模的部署。
第二阶段:定制化RDMA。起初我们直接采用商用RDMA,但商用RDMA存在稳定性风险。经过多年努力,我们对LosslessRDMA进行改进,演进到LossyRDMA,避免了PFC风暴。2018年,我们在北京发布了业界首个百万IOPS、百微秒级延迟的高性能ESSD(企业级固态盘)产品。
第三阶段:自研RDMA和自研网卡。我们自研的RDMA原生支持MultiPath(多路径),可实现10毫秒快速切换,确保性能稳定性。同时,我们融合存储语义与网络语义,让自研的高性能RDMA协议更贴合存储需求。
基于这些创新,2021年ESSD实现了80微秒延迟和150万IOPS的超高性能。在最新的第五代CIPU架构中,我们更是实现了300万IOPS的能力,为存储领域提供了更高且更稳定的性能。
值得一提的是,我们在存储领域研发的高性能存储网络,如自研的RDMA协议和网卡,在AI时代的AI场景中得到进一步应用和发扬光大,更好地满足了AI的需求。
前面提到了计算领域和存储领域的创新,现在来看网络领域的创新。阿里云采用两条技术路线构建可预期的高性能数据中心网络:
- 第一条路线是全自研网络设备和网络操作系统,涵盖网卡、盒式单芯片、交换机以及路由算法等,通过构建这套自研体系打造高性能数据中心。
- 第二条路线是端网融合技术。从应用端到网卡到交换机进行端到端协同,以提供更具可预期性的性能。与传统数据中心网络架构和技术相比,我们的可预期高性能数据中心网络显著缩小了故障影响范围,故障爆炸半径减少75%,延迟降低30%,还实现了毫秒级故障切换的能力。
尽管我们在计算、存储、网络领域积累了诸多技术创新成果,但面对AI负载,仍有新需求亟待通过进一步技术创新与优化来满足,尤其需要在AI基础设施层面开展更深入的工作。当下AI负载面临的三大技术挑战:
- 一是大模型训练过程中,任务常因各种故障中断,中断后需重启计算,导致大量时间损耗。
- 二是Checkpoint(检查点)的读写操作的性能瓶颈。由于故障频发,为避免从原点重启计算,需从上次检查点重启以节省计算资源,因此写和读Checkpoint至关重要。但执行该操作时通常会中断计算,所以需要高性能的写和读Checkpoint的能力。
- 三是AI基础设施链路长,涵盖数据中心、风控、液冷、服务器、GPU卡、网络及系统等,故障点众多。快速诊断故障并从中恢复是一大难题。
为应对AI负载面临的技术挑战,我们在基础设施层面全面创新,构建了灵骏集群。该集群专为AI负载做了大量优化,将其打造成云超级计算机。灵骏集群的技术体系包含四个方面的创新:
- 第一,高性能网络HPN(HighPerformanceNetwork),通过HPN,能让成千上万的GPU服务器更紧密、高效地协同工作,充分发挥GPU算力效率。
- 第二,利用高性能文件存储CPFS消除Checkpoint读写的性能瓶颈。
- 第三,采用定制化AI服务器,提升服务器稳定性,减少故障发生次数。
- 第四,借助灵骏的故障检测、预测以及高效的故障恢复机制,减少故障次数,缩短故障恢复时间,提高系统自愈能力,进而减少计算任务中断时长。
先来看HPN7.0网络,通过多平面多轨网络架构的设计,可高效支持10万张GPU卡的集群,每台机器配置3.2Tbps的RDMA网络的GPU间互联,使机器能更紧密、高效协同。采用自研的SolarRDMA协议对多路径(Multi-path)的原生支持,以及自主研发的HPCC流控算法,实现无阻塞的点到点通信。
通过前端网络和后端网络的分离,对前端网络上面存储访问的流量与后端网络GPU间通信的流量进行隔离,保证了通信的稳定性,提高了GPU使用效率。
我们还在持续技术创新,推出HPN8.0架构。借助此架构,将集群规模从10万张卡扩展至N×10万张卡。每台机器配备800G网卡及6.4T的GPU间RDMA互联能力。支持训练和推理一体的网络结构,针对预填充和解码分离架构(PD分离),以及专家并行架构(EP)等场景进行优化,提高系统性能。
在文件存储方面,我们从三个技术点进行创新:
- 一是构建高性能并行架构,降低CPFS延迟,提高吞吐能力,实现性能水平扩展。
- 二是打造高效的端能力。一方面提供高效的单客户端访问能力,例如单客户端凭借400G网卡可实现40GB/s的吞吐能力;另一方面构建端上缓存能力,利用计算侧内存和本地磁盘,结合自研P2PDADI缓存技术,构建分布式缓存系统,单节点具备15GB/s的缓存能力。这些端上能力有助于优化Checkpoint读写、模型文件分发,同时满足推理服务中KVCache存储需求。
- 三是加速CPFS与OSS(对象存储服务)间的数据流动。模型训练时,原始数据多存于OSS,我们通过建立OSS与CPFS间的高带宽流转通道,让训练或推理框架可经文件系统接口访问OSS。另一方面,在很多场景中,对于冷数据,可通过OSS与CPFS之间的数据流动,将冷数据转移至OSS,降低存储成本。
在灵骏创新中,故障处理是关键一环。我们需要具备故障预测、检测以及高效恢复的能力,灵骏的可观测性、监控与自愈系统是重要的技术优化方向。通过这些自愈系统创新,可减少故障发生次数,缩短故障恢复时间,进而提升整体计算效率。例如,通过技术优化与创新,在万卡规模下,我们能够实现分钟级故障恢复,使万卡规模上整体GPU利用率达到93%。
阿里云基础设施产品的全新演进
前面介绍了诸多关键技术的演进与创新,基于这些成果,阿里云构建了一系列产品和服务。
第一个产品发布,是阿里云第九代英特尔企业实例实现全面商业化。第九代英特尔企业实例采用英特尔最新的至强处理器(GNR芯片),其L3缓存大小提升50%,全核睿频达3.6G,计算能力大幅增强。在游戏场景中,性能最高提升15%;数据库场景里,性能最高提升17%;Web应用中,性能最高提升20%。
此外,第九代英特尔实例价格更普惠,相比八代,价格下降5%,让客户能以更低成本享受更强算力,实现高性价比的算力升级。同时,第九代英特尔实例标准配置弹性临时盘EED和弹性RDMA。在大数据缓存场景,以及低延迟场景如Redis、HPC等场景中,弹性临时盘和弹性RDMA可发挥更大效能。
第二个产品发布聚焦存储领域,我们的ESSD(企业级固态盘)同城冗余云盘已全面商业化,同时进一步扩大了OSS(对象存储服务)同城冗余存储在全球的覆盖范围。近期,马来西亚首都吉隆坡成为第12个具备OSS同城冗余产品覆盖的区域。
同城冗余存储借助盘古多可用区(AZ)存储技术,数据可靠性达12个9,数据访问可用性为99.995%。我们希望通过提供包括OSS存储和ESSD存储的同城冗余存储,助力客户构建同城容灾应用,提高应对数据中心级别故障的能力,提升业务连续性。
在对象存储领域,我们发布了诸多功能,在此介绍最近发布的三个重要功能。
OSS存储已与十多种数据分析和计算引擎以及AI计算框架集成,支撑着两万多个数据湖,其中最大数据湖容量达EB级别。自去年云栖大会发布OSSFSv1后,今年我们进一步优化其性能,针对大模型文件的大块读写进行专项提升,性能提高了6-7倍,让OSS作为大模型文件的“数据湖”存储,实现大模型文件的高效分发。
去年云栖大会发布的OSS资源池QoS管理功能反响良好。基于客户反馈,针对客户在使用中有众多存储桶(bucket),且需对其进行逻辑分组,我们推出了bucketgroup流控功能,实现组级别流控管理。
此外,继北京、上海、杭州和深圳区域后,新加坡成为第五个区域提供单个账号高达100Gbps的OSS吞吐能力,以便用户更高效地访问OSS存储,满足数据湖分析和AI计算需求。
在云网络领域,稳定的性能对应用至关重要,但网络链路复杂,链路上可能出现故障、软件资源竞争或流量拥塞等问题。在这样高度动态且不确定的网络环境中,提供稳定可预期的性能极为关键。为此,我们基于ZooRoute技术来达成这一目标。
ZooRoute技术,中文名是主动重路由技术,其核心有两点:
- 一是能够主动监测并发现网络中的故障和性能抖动;
- 二是可以主动、快速地进行切换。
监测、发现、切换这三个动作需在短时间内完成,我们实现了秒级切换,让上层应用无感知,同时保障跨域网络流量达到99.995%的业界最高等级服务质量(QoS)。
网络领域面临的另一挑战是复杂的运维和管理。近期,我们发布了两个新功能:
- 一是流量分析功能(MPM)。该功能可多场景、多维度地聚合分析客户应用的网络流量,并进行基于基线的智能分析。
- 二是网络架构巡检功能。网络架构复杂,我们基于丰富的网络运维经验以及各行业网络架构最佳实践,构建了专属大模型。利用该模型对客户网络架构进行巡检,查找潜在薄弱环节,给出优化建议,助力客户打造更健壮的网络架构,提升业务应用的安全性与稳定性。
安全在阿里云各项工作中始终处于最高优先级。一方面,我们提供丰富的云安全能力;另一方面,致力于让各类云产品具备更优的安全体验。为此,我们将数据安全、身份安全、网络安全、业务安全等云安全能力,与二十多款云产品进行集成,并通过一键开通的方式,提升产品的安全便捷性。
在灵骏集群领域,我们针对模型训练、多机并行推理,全方位升级产品能力:
- 第一,灵骏提供块存储EBS的支持,用作系统盘使灵骏集群在扩缩容时更具弹性;用作数据盘,在推理场景中,为推理应用提供更多存储选择,可将镜像、数据等存于EBS数据盘。
- 第二,在CPFS高性能文件存储方面,单客户端性能从25GB/s提升至40GB/s,读写数据集与检查点的速度更快。
- 第三,在前端VPC网络方面,带宽从40Gb/s提升至200Gb/s,让训练和推理应用能更高效访问OSS存储及其他云产品。
- 第四,在后端HPN高性能网络方面,不仅支持IPV6,还全面上线多路径(Multi-path)能力,在跨segment、跨任务多机推理,以及训练和推理场景(如PD分离、专家并行等)中,实现点到点无阻塞通信,整体通信性能提升25%。
- 第五,在优化故障自愈系统上,我们对服务器、GPU硬件、网络设备、整体系统以及上层PAI计算平台等进行端到端优化,提升故障发现与预测能力,缩短故障恢复时间,进而提高整体计算效率。
在面向AI负载优化的文件存储CPFS方面,我们实施了大量产品升级举措:
- 其一,推出容量型存储池,可对数据进行分层管理。
- 其二,提升客户端性能与缓存能力,单客户端的性能提升到40GB/s,单节点的缓存能力15GB/s。
- 其三,支持目录级别的配额控制。在分布式共享文件系统中,不同目录用途各异,例如测试目录可能因写入大量数据而占满整个文件系统,影响生产应用。通过设置目录配额,如限定测试目录不超过100TB,可避免此类情况发生。
- 其四,提供访问点AccessPoint的安全和权限管控功能。在共享文件系统中,不同目录的访问权限需求不同,部分目录可能仅允许特定客户只读访问。借助AccessPoint,可便捷地进行安全能力的管理与权限配置。
可观测能力是客户极为关注的。运行在阿里云上的客户,十分关心自身应用及所使用的各类阿里云产品的表现,这便是我们所说的统一可观测能力。对于智能体应用和大模型推理应用而言,这种能力尤为重要。近期,我们在云监控中推出两款APP,助力客户在构建智能体或大模型应用时,实现端到端的统一可观测。这些可观测能力,帮助客户的应用在阿里云上高效运行,同时也能够及时发现和解决潜在的问题,包括稳定性的问题、成本的问题等。
在AI高速发展的当下,阿里云凭借持续的技术创新与产品演进,从CIPU到盘古存储,从高性能网络、到高性能存储CPFS到灵骏集群,从ECS新实例到OSS新功能,为AI负载打造了坚实的云基础设施。未来,阿里云将秉持创新精神,不断优化技术与产品,持续降低AI应用门槛,为行业输入持之以恒的澎湃算力,助力更多企业在AI时代向全面智能化加速迈进。