阿里云容器服务在AI智算场景的创新与实践

本文涉及的产品
无影云电脑企业版,4核8GB 120小时 1个月
无影云电脑个人版,1个月黄金款+200核时
轻量应用服务器 4vCPU 16GiB,适用于搭建游戏自建服
简介: 本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。

本文整理自张凯在2024云栖大会的演讲


引言


2018年北美西雅图KubeCon上,阿里云容器服务团队为Kubernetes社区分享了业界第一套开源的GPU容器共享调度方案。从那以后,容器服务和GPU集群调度、深度学习、AI训练推理、大模型,这些热点技术走的越来越近。


2021年,容器服务开始在CNCF社区推广云原生AI的概念和参考架构,参与建设Kubeflow云原生机器学习开源社区,推动Kubernetes调度器框架支持batch任务调度,创建Kube-queue任务队列,和Fluid数据集编排加速等开源项目。


2023年,在CNCF社区发表Cloud  Native  AI白皮书之前,容器服务ACK云原生AI套件产品已商业化上线。同年云栖大会容器场,我们分享了容器产品在云原生AI领域的关键技术。通过支持PAI灵骏产品和客户的AIGC/LLM应用,容器进入到AI智算和大模型领域。


2024年云栖大会,我们总结过往支持AI智算基础底座的实践经验、发现与思考,给出《容器服务在AI智算场景的创新与实践》的演讲。不仅希望将所做所想与客户和社区分享,也期待引出更多云原生AI领域的交流和共建。



TL;DR




阿里云容器服务,聚焦智算和大模型场景需求,在云原生AI系统分层架构中,提供若干优化,以增强Kubernetes支持AI负载的稳定性、弹性、效率和开放性。主要工作包括:


1. 增强GPU的可观测性,实时Profiling和故障自愈能力;


2. AI任务在多集群、跨地域GPU资源池上统一调度,缓解GPU资源紧缺问题;


3. 优化vLLM,Kserve等开源大模型推理引擎在容器部署和管理实践;


4. 支持灵活的弹性伸缩策略,降低大模型推理冷启动延时,优化AI推理服务的性能和成本;


5.   集成Ray,Slurm等更多分布式计算和任务调度系统,优秀的LLM应用架构方案,比如Dify,Flowise,FastGPT等RAG方案,以及Nvidia  NIM大模型推理加速方案等,优化它们与阿里云服务的集成方案,为客户的云原生AI系统提供与社区更广更深的连接。



容器服务支撑AI智算基础底座



图片.png


经过10年发展,Kubernetes容器技术已经成为管理业务应用和微服务实际意义上的基础技术底座。人们常将Kubernetes类比为云时代的分布式操作系统。


在AI时代,Kubernetes继续快速演进,拓展出了新的云原生AI领域。用户可以在Kubernetes集群中管理调度GPU、NPU、RDMA等高性能异构资源,以容器化方式开发、运行AI、大数据任务,部署AI推理服务。


阿里云容器服务,通过托管Kubernetes集群和一系列面向云原生AI领域的创新能力扩展,构筑起云原生AI基础底座,支撑用户的AI智算生产系统。


图片.png


多年来,容器服务ACK支持了大量客户的AI大数据负载和GPU集群调度的需求,我们将生产实践经验沉淀为ACK云原生AI套件产品,并在2023年正式商业化上线。


云原生AI套件兼容标准Kubernetes,支持ACK Pro,Edge,One,灵骏等各种集群类型,以及全新的ACS容器计算服务。已经在自动驾驶、AI for science、互联网、金融、大模型服务等众多领域客户生产落地。


同时,容器服务也在业界首先提出了云原生AI系统分层架构。面向不同角色,提供了从底层异构资源统一管理,任务编排调度,AI框架支持,到AI任务生命周期管理和性能优化,再通过标准API,与广泛的开源AI社区集成。


希望通过云原生AI套件,为AI/ML客户与社区,提供一整套工程效率高、成本低,可定制化组装的端到端解决方案。帮助用户的Kubernetes集群,30分钟构建起云原生AI平台的基础底座。


云原生AI套件及ACK产品帮助文档:
https://help.aliyun.com/zh/ack/cloud-native-ai-suite/
https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/product-overview/what-is-ack


聚焦大模型场景优化


回顾过去一年,大语言模型和AIGC领域的跨越式发展,极大推动了AI分布式训练和推理技术,以及大规模GPU智算集群调度管理技术的快速演进。


在这样的背景下,ACK云原生AI套件聚焦大模型场景,提供了一系列基础能力优化和创新实践。


图片.png


大模型给底层基础服务带来了非常多挑战和需求,比如大规模GPU资源需求挑战,集群稳定性挑战,任务弹性策略和性能优化挑战,以及快速发展的模型和计算框架生态集成的需求。


云原生AI套件聚焦这些需求,在分层架构中逐层优化:


重点增强GPU的可观测性和故障自愈能力;


实现AI任务在多集群跨地域GPU资源池上统一调度,解决资源紧缺的问题;


内置基于vLLM,Kserve等开源大模型推理引擎的最佳实践;


通过更灵活的弹性伸缩策略,优化AI推理服务的性能和成本;


集成了Ray,Slurm等更多分布式计算和任务调度系统,也集成了众多优秀的LLM应用架构方案,比如Dify,Flowise等RAG方案,以及Nvidia NIM大模型推理加速方案,为客户的云原生AI系统提供与社区更广更深的连接。


下面将对ACK云原生AI套件的这些新能力做更详细的介绍。


图片.png

首先,实时观测和分析GPU资源利用率和GPU任务的性能表现,对于洞察和优化AI智算系统的效率至关重要。


在监控方面,ACK GPU监控大盘默认支持40余种指标,覆盖了资源利用率和任务性能的不同视角。


在诊断方面,ACK新增了基于eBPF技术的实时GPU profiling能力。支持在AI任务运行过程中,动态开启,无侵入地持续追踪任务执行过程。


将CPU进程,系统调用,Python和Pytorch方法调度,CUDA算子,以及NCCL通信和Data IO操作的运行过程,关联在一致的Timeline上统一分析,可以更直观、更快地定位线上AI任务的性能瓶颈。

图片.png

相较于NSight, Pytorch profiler等离线诊断工具,基于eBPF的实时GPU profiling方案,更加轻量级,可在不需要中断任务的情况下,动态开启。


更容易在线上出现问题的时候,动态发起诊断,及时发现优化点。帮助ACK上的AI任务性能诊断效率提升20%。


比如上面这个例子中,通过CUDA算子和torch训练代码的调用耗时的分析,很直观看到训练数据的加载耗时远大于训练计算,这里存在明确的优化空间。

图片.png

AI智算集群的稳定性很大程度上影响了模型训练和推理的效率与成本。


Meta训练Llama3.1 405B模型的案例中,54天训练,发生了417非预期中断,其中58.7%中断是GPU相关的故障。


Llama3.1能够完成训练,故障的自动处理至关重要。Meta的技术报告中看到,除了3次人工处理介入,其他故障全部实现自动化处理。


在容器智算场景,ACK提供了CIS智能诊断自愈系统。支持GPU、节点池、Kubernetes  Addons等组件自由扩展特定故障类型,自定义故障诊断和恢复工具与脚本。通过集成ACK  AI助手,借助LLM知识库,加快故障根因分析。形成从发现故障到自愈的全流程自动化处理。


ACK将GPU资源故障自动处理流程,与AI任务的错误恢复能力相结合。在发现GPU故障之后,一方面通知底层IaaS进行资源诊断、迁移、维修,另一方面Kubernetes调度会自动隔离故障资源,防止影响新任务。同时结合训练框架启动模型快速checkpoint,并在合适的条件下,重新调度任务,恢复训练。

图片.png

大模型scaling law,支撑了GPU算力需求持续增长。单个数据中心或云的单个地域可能无法满足大任务对GPU资源量的需求。业界已经在尝试多地域、多集群资源和AI任务统一调度的方案。


然而,多地域任务分发和数据同步,带来了一致性、效率和复杂度挑战。


容器服务增强ACK One的计算与数据协同调度能力,实现多Kubernetes集群跨地域统一调度AI负载。支持以库存优先,成本优化等策略,缓解GPU 资源供给挑战。进一步,还需要动态观测和调整AI作业分布,持续平衡GPU资源与AI负载的最优匹配。


需要注意到,大模型体积大的特点,会影响多地域部署模型服务的成本和性能。通过自动预热和缓存模型到不同地域,加速LLM推理服务在多集群中的启动和弹性伸缩,优化GPU资源使用效率和成本。


同时,也需要结合跨地域模型服务请求流量的统一管理,简化多集群环境下的用户体验复杂度。


图片.png

AI推理服务也像很多在线业务一样,存在访问峰谷变化的特征。在云上,弹性伸缩是应对服务流量变化的最佳实践。


容器服务支持根据QPS,请求Latency,GPU利用率,token请求队列长度等自定义指标,实现AI推理服务的自动弹性扩缩容。


为了提供更加及时、精准的资源弹性,容器服务提供 AHPA,由时序数据预测算法加持的智能弹性策略,精准控制扩缩容时机和幅度。


同时,结合Knative,也支持AI推理实例缩容到零的能力,极致优化资源成本。


图片.png

然而,使用推理服务的弹性伸缩能力,在大模型场景下,实际存在更多Scale上的挑战。比如:


大模型加载慢,推理服务冷启动延迟大;


无法及时应对AI请求峰谷变化,导致弹性伸缩失效;


并发加载模型,访问存储聚合带宽压力大,成本高。


ACK云原生AI套件,将Fluid数据集缓存加速能力,扩展到大模型推理领域。通过Fluid Dataset和 Preload实现自动预热远程大模型参数到本地page cache,通过Fluid SDK并发加载到GPU显存。


端到端的模型缓存和预热优化,帮助LLM/AIGC推理服务冷启动延迟降低85%以上。既能支持 ECS/EGS,裸金属实例上的模型服务容器加速,也能支持ECI/ACS serverless实例上的加速。有效支持大模型推理服务弹性伸缩的可行性和实际价值。


图片.png

Fluid是阿里云联合南京大学、Alluxio等组织共同创立的云原生数据集编排和加速开源项目。Fluid定义了Kubernetes中应用访问各类异构数据源,使用数据的标准接口。Fluid提出了Dataset抽象,对任务使用数据的过程建模。支持分布式缓存技术加速访问  Dataset,以及极简的Dataset Centric的数据处理流水线。


Fluid既可以用于加速分布式训练任务读取训练数据,也可以用于加速大模型推理服务启动。可以通过Fluid  DataProcess,自定义编排推理服务模型下载 - 预处理 - 部署流程。比如支持TensorRT-LLM自动执行convert  model > build engine > serving 的操作。

图片.png

很多客户的IT系统架构演进路径中,智算、超算、大数据应用云原生一体化正在形成趋势。社区在推动增强Kubernetes,成为管理和运行各种数据计算类工作负载的统一基础平台。


在ACK的Kubernetes集群上,用户已经可以便捷高效地运行AI训练任务,推理服务,以及Spark/Flink大数据任务。


此外,ACK新增加了对分布式计算框架Ray,和对传统HPC领域Slurm任务调度能力的支持。提出Ray  on ACK和Slurm on  ACK的产品化方案,通过标准的Operator机制管理Ray,Slurm的集群和任务。重点集合云和容器的优势,统一优化调度、弹性、混部、可观测、安全、数据访问加速等能力。同时,无缝兼容Ray和Slurm原生的用户体验。


容器服务也在积极推动上游开源社区,在Kubernetes体系下,定义支持各类计算框架和任务类型的云原生任务标准API和生命周期。帮助用户可以在Kubernetes集群上以统一的标准和接口,管理调度各类数据计算类工作负载。

图片.png

ACK扩展了Kube-scheduler framework,与Slurm调度系统打通,即支持节点池维度的分节点调度,也支持共享节点资源的混部调度。借助Kube-queue,可以对Kubernetes jobs和Slurm jobs统一排队管理。


ACK还实现了Kubernetes资源和Slurm资源状态双向同步,通过可自定义的扩缩容策略判断,动态调整Slurm节点,实现Slurm集群的弹性伸缩。是的传统的HPC集群调度,也能利用云的弹性优势。


而对于HPC用户来说,不用关心底层的调度细节,依然保持了通过登陆节点提交sbatch,srun作业的原生体验。

图片.png

开源开放,对于云原生和AI社区都是最重要的发展路径和驱动力。无论训练框架,推理引擎,分布式计算软件,还是开源模型以及新的AI应用架构,容器服务始终以开放架构和开源标准,持续帮助用户快速高效地集成到Kubernetes集群中。更重要的是,ACK会重点优化开源能力和生态方案的“弹性,调度能力,可观测,稳定性,安全性”,通过内置与阿里云服务的整合,提升可生产落地的成熟度。

图片.png

我们将容器服务在AI智算场景的创新能力和实践经验,沉淀为开放的云原生AI参考架构。通过ACK云原生AI套件产品,帮助客户持续优化异构资源效率和AI工程效率,改善云原生AI的落地和使用成本。以开放的架构和实现,给客户AI业务最大的灵活度。帮助客户的云原生AI系统可持续演进。


诚邀共建


阿里云容器团队诚招内转开发&SRE】【产品经理】【PDSA】- 杭州、北京、深圳的岗位均可,欢迎大家帮助推荐。


也欢迎大家加入云原生AI技术和产品交流群,持续关注、共建与合作。


图片.png

钉钉扫一扫群二维码,立即加入群聊

(2025.09.27前有效)

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
打赏
0
7
7
0
3500
分享
相关文章
HarmonyOS Next~鸿蒙AI功能开发:Core Speech Kit与Core Vision Kit的技术解析与实践
本文深入解析鸿蒙操作系统(HarmonyOS)中的Core Speech Kit与Core Vision Kit,探讨其在AI功能开发中的核心能力与实践方法。Core Speech Kit聚焦语音交互,提供语音识别、合成等功能,支持多场景应用;Core Vision Kit专注视觉处理,涵盖人脸检测、OCR等技术。文章还分析了两者的协同应用及生态发展趋势,展望未来AI技术与鸿蒙系统结合带来的智能交互新阶段。
51 31
AI变革药物研发:深势科技的云原生实践之路
阿里云与深势科技联合推出Bohrium®科研云平台和Hermite®药物计算设计平台,通过分子模拟技术大幅缩短药物研发周期、降低成本并提升成功率,为生物医药行业带来变革。
70 38
ACK Gateway with AI Extension:面向Kubernetes大模型推理的智能路由实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with AI Extension组件,在Kubernetes环境中为大语言模型(LLM)推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
ACK Gateway with AI Extension:大模型推理的模型灰度实践
本文介绍了如何使用 ACK Gateway with AI Extension 组件在云原生环境中实现大语言模型(LLM)推理服务的灰度发布和流量分发。该组件专为 LLM 推理场景设计,支持四层/七层流量路由,并提供基于模型服务器负载感知的智能负载均衡能力。通过自定义资源(CRD),如 InferencePool 和 InferenceModel,可以灵活配置推理服务的流量策略,包括模型灰度发布和流量镜像。
构建企业AI的信任与信心基石:从认知到实践的全面升级
本文探讨企业在人工智能(AI)广泛应用背景下面临的信任与信心挑战,提出通过数据安全、技术透明度及技能认证构建信任体系。重点介绍生成式人工智能认证(GAI),其能助力企业培养AI人才,提升团队专业能力。文章还建议企业加强内部培训、外部合作与实战应用评估,全方位推动AI战略落地,为企业发展提供支持。
阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024
在新加坡 ElasticON 2025 的 Elastic 合作伙伴峰会上,阿里云 AI 搜索产品荣获 Elastic Innovation Award 2024!
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
1087 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
AI程序员:通义灵码 2.0应用VScode前端开发深度体验
AI程序员:通义灵码 2.0应用VScode前端开发深度体验,在软件开发领域,人工智能技术的融入正深刻改变着程序员的工作方式。通义灵码 2.0 作为一款先进的 AI 编程助手,与广受欢迎的代码编辑器 Visual Studio Code(VScode)相结合,为前端开发带来了全新的可能性。本文将详细分享通义灵码 2.0 在 VScode 前端开发环境中的深度使用体验。
148 2
牛逼,这款开源聊天应用竟能一键召唤多个AI助手,跨平台通话神器!
`JiwuChat`是一款基于Tauri2和Nuxt3构建的轻量化多平台即时通讯工具,仅约8MB体积却集成了**AI群聊机器人**、**WebRTC音视频通话**、**屏幕共享**等前沿功能。一套代码适配Windows/macOS/Linux/Android/iOS/Web六大平台,堪称开发者学习跨端开发的绝佳样板!
一键轻松打造你的专属AI应用!
函数计算提供免运维、Serverless GPU,具备极致弹性与按量付费优势,助您一键部署AI大模型,加速业务创新。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等