当前,大模型能力快速升级、行业应用不断深入,尤其在 DeepSeek 出现后,其提供的低成本高效率的 AI 解决方案正加速 AI 应用拐点到来,几乎所有行业都需要性能更强、规模更大、更适应 AI 需求的基础设施。
首先,AI 负载对计算提出了更大需求。一些前沿的大模型训练,每一年对算力需求的增长大概有 4-5 倍。比如 Llama-3.1-405B,对算力的需求较 Llama2.0 提升了 50 倍。IDC 数据也显示,最近几年中国智算的算力复合增长率为 33.9%。
其次,AI 负载对存储也提出了更高的需求。随着模型参数每年 10 倍增长,模型的数据集每年达到 50 倍增长,都需要更高性能的存力。
此外,AI 应用落地加速,模型推理需求爆发,对算力提出了更高性能、更低延迟、更高灵活性的要求。
作为支撑 AI 发展的重要基础设施,云厂商拥有全栈技术储备,并通过基础设施的全面升级,让 AI 训练、推理、部署和应用整个生命周期变得更高效。
过去一年,阿里云投资新建了大量的 AI 算力,并且在全球持续加码布局,当前在 29 个地理区域内运营着 87 个可用区,在当前全面出海的趋势下,阿里云将为企业提供坚实的技术底座支撑。
阿里云构建了完整的 AI 基础设施,来满足训练和推理的规模化发展需求:计算、存储、网络和安全等产品和服务,是坚实的基础;在此之上,通过先进的容器化技术进行算力的编排和管理;进而,通过 AI 智算平台 PAI 来进行任务调度、编译优化,实现弹性扩展、容错以及迁移等能力,打造完整的阿里云 AI 技术服务栈。
在这个服务栈里面,阿里云进行了全栈优化,以提升系统稳定性和计算效率,整体 AI 基础设施的连续训练有效时长达到 99%,处于业界领先水平。
高效一体的 AI 算力
大模型的训练和推理所需算力不仅是量的增加,更是质的变化。训练大尺寸的模型需要海量算力。近期,基于通用大模型蒸馏、微调出专项小尺寸模型的技术受到关注,众多企业无需海量算力也可以拥有适合自己的高性能模型,训练、微调所需的算力将高速增长。随着大众对 AI 能力的信任度不断增强,AI 应用得来爆发,推理的需求也将快速增长。在推理阶段,算力依然是驱动 AI 进化的驱动力,唯有持续突破算力性能、能效与成本的三重边界,才能在智能时代构建更强大的模型引擎与更普惠的推理服务。
为支撑大规模的模型训练和推理,阿里云打造了灵骏超级智算集群,提供高效的一体化 AI 算力:灵骏计算集群提供可扩容到 10 万张 GPU 卡规模的能力,同时在万卡的规模下性能线性增长率达到了 96%,性能网络吞吐的有效使用率也达到了 99%。基于 CPFS 文件存储系统,灵骏可提供 20TB/S 的超高吞吐并行存储能力。
以 GPU 为中心的服务器设计
AI 时代下,GPU 成为计算的主流,面向 GPU 的服务器成为趋势。云计算厂商需要屏蔽底层硬件差异,让开发者专注模型算法的开发,同时也能通过软件层发挥利用到硬件所带来的一系列性能。
磐久服务器也为 AI 做出了深度优化,全新架构支持多种异构芯片,GPU、CPU 架构分离,同时兼顾二者算力匹配。
作为高密度算力单元,其整体性能全面提升,全新 16 卡机型,支持最高 1.5TB 单机显存;8 卡机型搭载 400G 网卡支持 Solar-RDMA,保障存储和其他云计算产品的高效访问。
此外,为保证极致性能的发挥,需要面向高性能计算的可靠性设计,磐久服务器使用超钛金电源,使得能效达到 97% 以上;同时,基于 AI 算法的 GPU 故障预测,准确率达 92%。
大规模集群的高性能网络架构
如何稳定连接超过 10 万个 GPU,让数据中心化身为一台超级计算机 ? 网络架构尤为重要。灵骏集群采用了 HPN7.0 高性能网络架构。
首先,新架构采用升级后的拓扑设计,使用多轨和多平面两层网络设计,支持并实现单集群 10 万卡的规模。
另外,通过前后端网络分离,提供稳定高效的数据传输——前端是提供高速存储访问和节点通信,打通存储并通过 VPC 打通其他云产品;后端每台机器通过 3.2Tb/s 的高性能 RDMA 网络连接,实现 GPU 和服务器之间的高效互联,保障了大规模 GPU 集群的联合计算效率提升。
同时,阿里云做了一系列网络方面的创新和优化,比如自研的 Solar-RDMA 协议,提供了自适应的多路径的选择,提升传输效率;自研 HPCC 流控协议,增强适应能力,确保稳定可靠。
通过一系列优化,实现了对模型训练至关重要的集合通信性能提升一倍,对模型端到端训练性能提升 10%。
支持海量并发数据的存储系统
模型训练时需要处理大量的数据,而这些数据往往来自于数以百万计的小文件。整个存储系统既要实现高吞吐,同时也要处理海量的小文件。
阿里云的 CPFS 文件存储系统借助 400Gb/s 网卡以及 RDMA 通信的能力,可提供单个客户端 25GB/s 吞吐,支持更大及更加频繁的 Checkpoint“写”的速度,这可以更好地防止数据丢失,并提升训练的稳定性和可靠性。
同时,CPFS 在计算侧构建了一个分布式缓存系统进行加速。在后端则提供了 400MB/s/TiB 并行扩展能力,性能随着容量的扩展而线性扩展,在一个超大集群里可整体提供 20TB/s 的吞吐能力,全方位帮助 Checkpoint 的读写加快,降低中断对模型训练速度的影响。
此外,CPFS 与 OSS 之间高效的数据流动,达到 100GB/s,既保证足够快速地传输图片、视频等各类数据,又能帮助客户降低成本。
过去一年,阿里云将 CPFS 打造成了一项全托管、免运维的服务,不仅实现灵活扩展,容量和性能都能根据需求弹性调整,还能多租共享,支持多用户环境,让并行训练高效共享存储。
另外,CPFS 在性能和成本上也有进一步优化,建立了完整的、能够自优化的存储梯度架构:一方面,GPU 内存、CPFS、SSD、OSS 的冷热数据分层可以实现 自动优化和自动交互;另一方面,优化存储编码,提升存储效率、降低成本,更好地支持各种各样模型的训练。
便捷高效的 GPU 容器
过去一年间,ACS 容器的能力在不断提升,体现在三方面:更柔性,最小步长以 0.5vCPUx1GB 递进;更弹性、敏捷,实现 GPU 的热升配、热降配,达到既保障性能又降低成本的效果。弹性能力升级至每分钟可以完成 1 万个 Pod 的起停动作;更灵活的付费方式,除按量付费,也提供按需付费方案,按天承诺节省计划,最高可节省 55% 费用。基于 GPU 的 ACS 容器计算服务已经推出,将进一步提升 GPU 使用效率、为开发和运维提效,并降低成本。
面向 AI 的开发服务
随着 AI 大模型复杂度指数级上升,传统开发模式面临工具链割裂、资源利用率低、部署周期长等瓶颈,构建面向 AI 的开发服务已成为加速智能技术落地的核心抓手。
基于 AI 开发平台,能降低技术门槛,通过预置工具,加速开发、微调模型的进程;其次,提升全流程效率,集成数据标注、分布式训练、模型压缩及推理部署的一站式工具链,可将 AI 应用上线周期从数月压缩至数周;第三,优化资源协同,结合弹性算力调度与算法—硬件协同优化,大幅降低训练成本。
阿里云人工智能平台 PAI 是面向企业客户及开发者的一站式 AI 平台,作为模型训练与推理的一站式平台和一体化的智算管理与调度系统,为开发者、模型创新者提供核心支持。
在模型训练层面,PAI-DLC 模型训练服务能够实现异构硬件、模型、并行方式的自动加速;通过自研编译优化,让性能比开源提升 1.5 倍;支持百万级超长序列任务训练。同时,针对稀疏模型进行优化,PAI 也支持混合专家 (MoE) 模型,千卡规模训练,模型浮点运算利用率 (MFU) 接近 30%。PAI 平台还承担了网络拓扑的智能调度任务,可以减少不同 GPU/ 服务器之间不必要的延迟,支持企业内多用户间共享资源,万卡规模任务近线性扩展。针对模型训练过程中会出现的各种中断情况,阿里云对容错机制做到了大量工作,实现了故障自动恢复:通过增加全栈监控指标,千卡规模集群故障分钟级自动发现(覆盖 98.6% 故障),保障模型的连续性训练和迭代。
在模型推理层面,随着模型成本、复杂度越来越高,参数规模越来越大,如何支持各种各样的模型服务本身已经成为一个挑战。
PAI–EAS 模型推理服务可以通过系统优化、自动调度,更好地服务各类客户需求。阿里云完成了算子优化、混合精度量化、PD 分离的分布式推理、prompt cache 缓存等技术进一步优化,通过 BladeLLM 推理引擎,实现吞吐提升 60-100%、首包延迟降低 66%、输出延迟降低 70%,性能更强,成本更低。此外,阿里云有覆盖全球 16 个地域的十万卡级调度规模,支持就近部署,进一步降低推理延迟;同时,专属网关对 LLM 和多模态模型的跨地域推理服务访问和安全控制提供有效保证,整体为企业业务发展提供极致性能。而且,模型的调用存在高峰和低谷的现象,模型的资源调用量并不是一个平均值,需要服务提供弹性扩展能力,应对波动。 阿里云不仅满足模型调用中的实时弹性需求,支持分钟级自动扩缩容,还有负载感知的 LLM 智能路由,基于不同的时延要求和高峰低谷状态来灵活调度分配资源。
为实现灵活高效的异构资源管理,阿里云打造了一体化的智算管理与调度系统 PAI Serverless 引擎,以万卡级别的 Serverless 统一调度引擎,将 HPC、训练、推理一体化调度,提供灵活的、细颗粒度的资源管控,满足高效、动态的调度和无感切换。有效算力利用率提升到 90% 以上。
激发数据价值
高质量数据的持续供给与精准处理对提升大模型效果至关重要,是打造大模型应用的根基工程。其中,高质量数据可提高模型性能、数据多样性可提高泛化能力,数据服务效率直接制约训练周期。此外,还要建立数据 - 模型反馈闭环,持续优化大模型的知识边界与应用效果。
阿里云通过一系列多模态数据管理和多引擎解决方案应对数据处理的不同需求。
融合数据平台将在数据基础设施中发挥关键作用。数据湖仓将为企业带来显著战略价值:快速构建一体化数据分析平台,加速获取 AI 赋能的业务洞察,有效降低数据基础设施与管理成本。
阿里云推出了全新 OpenLake 解决方案,作为 AI 时代的湖仓一体化平台。
OpenLake 基于 OSS 的统一存储,统一纳管结构化、半结构化和非结构化的多模态数据,提供对湖仓表和数据文件的安全访问以及 IO 加速。向上,提供对大数据搜索和人工智能平台的多引擎对接,包含流、批、增量、搜索多样化计算支持,实现引擎平权的联合计算,满足秒级到小时级数据处理能力。最后,基于 Dataworks Notebook 的一站式 SQL 与 Python 开发,让数据与模型训练的工作流无缝连接。
AI 时代的数据库系统需要具备多模处理和实时分析的能力,并且要像乐高一样易用、好用。
当前近 80% 的企业在建设数据平台时开始采用多种数据引擎、多数据实例组合的策略。随着 AI 兴起、非结构化数据的指数级增长,多云数据的管理难度加剧,企业也对数据的高效检索和分析提出了更高的要求,元数据管理能力成为协调跨环境、跨引擎、跨实例资源的核心要素。
为满足企业用户在多云多端环境下对元数据统一管理的需求,促进数据自由流动,阿里云发布了多模数据管理平台 DMS,助力构建企业智能 Data Mesh(数据网格), 提升跨环境、跨引擎、跨实例的统一元数据管理能力。
DMS 创新设计了统一、开放、跨云的元数据服务 OneMeta 及多模联动模式 OneOps。
其中,OneMeta 首次打通不同数据系统,可支持全域 40 多种不同数据源,支持他云、自建数据源无缝对接,提供数据血缘和数据质量的一站式数据治理。
OneOps 可实现 DMS+X 的多模联动模式,将云原生数据库 PolarDB、云原生数据仓库 AnalyticDB、云原生多模数据库 Lindorm 等多样化的数据存储、分析、计算、AI 引擎集结到统一平台。企业用户可使用 Notebook 进行数据和模型开发,完成一站式数据和模型任务编排,实现数据加工、特征加工、特征提取、分析计算、模型 Serving 等 DataOps 和 MLOps 全链路的数据加工和计算能力。同时利用各种 CPU/GPU 算 力,以及面向行业的算法优化,进一步完成计算和模型加速。
构建覆盖全大模型生命周期的安全体系
云时代复杂的 IT 体系、碎片化的安全工具和传统的防护思路,以及新技术和新威胁带来的多重变化,让安全运营难以应对挑战。阿里云基于多年经验,创新性提出 “三体”安全建设思路,将基础设施安全一体化、安全技术域一体化、以及办公安全和生产安全一体化贯彻到安全运营中。
阿里云云原生网络检测与响应产品 NDR(Network Detection Response),即是在此背景下的创新。NDR 是基于公共云环境原生化部署的威胁检测与响应产品,全面提升了云环境全流量防御能力。与传统第三方产品不同在于,它无需部署即可即时开通,并通过创新的自动留存技术,可以针对攻击事件及攻击发生前后 5 分钟的流量进行取证保存,兼顾留存需要与成本投入,进而进行溯源和关联分析,帮助客户更快发现高级网络威胁。
基于基础设施安全一体化,阿里云还加强了 WAAP、云安全中心、DDoS 防护等能力,并且对数据库、网络 CDN、计算、存储等云原生产品的安全能力也进行全新升级。
比如数据库与安全产品在数据安全上进行全面融合与能力共建,发布列加密与原生审计技术,可一键开通,增强自动化的安全能力。在 CDN 安全方面,阿里云将安全功能融入边缘网络,实现一键开启 DDoS 防护、WAF、Bot 管理、API 安全、SSL 证书等功能,通过全球 3200 多个节点提供原生安全能力,为用户提供边缘云网安全防护体验。
在做好平台安全建设的同时,阿里云也免费开放更多的安全能力额度,包括云安全中心、内容安全、数据安全中心,让中小企业客户能够增强安全防护,同时还在安全体验上增加一键检测、一键修复等功能,与客户共同构建安全维护。
面向 AI,阿里云全新升级了安全体系,通义大模型基于阿里云的安全基座建设了生成式人工智能安全保障的最佳实践,将内容安全能力覆盖到大模型全生命周期中。同时,阿里云安全为百炼平台的专属部署模式设计了 VPC 安全保障方案,让客户在私域环境中也能获得数据确权归属等系列安全服务。
结语
阿里云会持续以前所未有的强度投入 AI 技术研发和基础设施建设,并以遍布全球的基础设施和全栈的技术能力,为企业在全球业务的发展提供坚实的支持。在提供核心技术能力之外,阿里云始终坚持开放,打造“AI 时代最开放的云”。