Serverless GPU:助力 AI 推理加速

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: Serverless GPU:助力 AI 推理加速

本文整理自 2024 云栖大会,阿里云智能集团高级技术专家聂大鹏、NVIDIA 解决方案架构师金国强演讲议题《Serverless GPU:助力 AI 推理加速》


近年来,AI 技术发展迅猛,企业纷纷寻求将 AI 能力转化为商业价值,然而,在部署 AI 模型推理服务时,却遭遇成本高昂、弹性不足及运维复杂等挑战。本文将探讨云原生 Serverless GPU 如何从根本上解决这些问题,以实现 AI 技术的高效落地。


AI 落地的三大难题与趋势


  1. 成本高昂:GPU 资源利用率低下,因缺乏 GPU 虚拟化、业务潮汐效应及资源调度问题,导致昂贵的 GPU 显卡未能充分利用。
  2. 弹性受限:自建 GPU 集群难以应对流量波动,尤其在实时推理和离线任务处理时,缺乏快速弹性扩展能力。
  3. 运维复杂:AI 团队不愿承担 GPU 集群的管理和维护,涉及硬件软件维护、故障处理及多业务混部问题。


趋势显示,用户自建 GPU 集群正向云平台 Serverless 形态转变,期望通过低成本、高弹性和免运维方式,专注于业务价值创造。

Serverless GPU 算力创新:

助力 AI 落地降本


Serverless GPU 模式通过智能区分 GPU 实例的忙闲状态,提供差异化定价策略,实现了成本优化与性能保障的双重目标。这种模式下的算力供应具备三个显著优势:


  1. 弹性模式:无需预留资源,按需快速弹出 GPU 容器,适合准实时或离线场景,大幅降低成本。
  2. 预留模式:保证无冷启动,但成本较高,适用于 24/7 连续运行的需求。
  3. 闲置 GPU 模式:结合弹性与预留模式的优点,通过区分 GPU 实例的忙闲状态,提供差异化定价,既保证低延迟,又显著降低成本。



实现这些优势的关键在于阿里云函数计算生态的 GPU 架构升级,即神龙多租 GPU 架构。该架构支持空间维度上的多租户 GPU 卡切分与时间维度上的超卖复用,从而实现秒级弹性 GPU 规格解耦,最终释放更经济高效的 GPU 技术红利。


image.png


闲置 GPU 模式的内部机制与优势

  • GPU checkpoint 至内存池,闲置成本远低于 GPU 显存,实现低延时与成本优化。
  • 解冻过程根据模型大小决定,冷启动时间控制在合理范围。
  • 通过工作负载分析,智能调整 GPU 冻结时机,确保热工作负载性能接近原生  GPU。


神龙多租 GPU 架构与技术创新

  • 实现空间维度上的多租户 GPU 切分混布,时间维度上的超卖复用,提高 GPU 资源利用率。
  • 提供秒级弹性、GPU 切分规格、CPU/ MEM/GPU 规格解耦、忙闲时分开定价等特性,释放 GPU 技术红利。


随着传统 Web 场景下的调度算法(比如:RR 调度策略、最小连接数调度策略)在 AI 场景有诸多弊端:如恶化后端 GPU 资源饿死胖死现象,造成业务请求 RT 急剧抖动。函数计算平台提供请求负载感知的调度策略,根据函数的请求并发度来最大化压榨后端集群的处理能力,提升用户 GPU 实例、用户自建 GPU 集群的资源利用率。

英伟达案例:NVIDA TensorRT

与 AI 推理加速


阿里云函数计算是一种无服务器(Serverless)计算服务,它允许用户在无需管理底层基础设施的情况下,直接运行代码。函数计算以其高灵活性和弹性扩展能力,让用户专注于业务逻辑的开发,自动处理计算资源的分配、扩展和维护。此外,函数计算支持 GPU 算力,使其成为 AI 任务的理想选择,如模型推理和图像生成,能够大幅提高效率并降低计算成本。


NVIDIA TensorRT 是英伟达为深度学习推理优化的高性能库,通过权重量化、层融合和内存优化等技术,极大地提升了模型的推理速度,同时减少了资源消耗。TensorRT 支持从多种框架(如 TensorFlow、PyTorch)导出的模型,包括大语言模型和多模态视觉语言模型,使开发者能够充分利用 GPU 的计算能力,快速部署 AI 应用。


针对当前热门的大模型推理,英伟达还推出了 NVIDIA TensorRT-LLM(LLM,Large Language Models),这是一个专为加速大语言模型推理设计的高性能深度学习推理库,不仅覆盖了主流大语言模型,还支持丰富的数据精度选项,通过系统内核和优化计算库,实现了模型推理性能的显著提升。


在 Serverless GPU 创新的基础上,英伟达的 NVIDIA TensorRT 成为加速 AI 推理的重要利器。TensorRT 作为高性能深度学习模型推理的 SDK,通过数据精度混合处理、模型融合、算子优化等技术手段,显著提升了模型推理效率。函数计算的无缝计算体验与 NVIDIA 的高性能推理库相结合,为开发者提供了一个强大的平台,让他们能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。


image.png


在实际应用中,这种合作模式的优势尤为明显。例如,在大规模模型推理场景下,使用 TensorRT 可以将平均推理耗时降低约 20%,这在处理千万级参数的大模型时效果尤为显著。而 TensorRT-LLM 进一步针对大语言模型进行了优化,确保即使在处理极为复杂的模型时,也能保持高精度和低延迟。


结论


Serverless GPU 算力创新不仅解决了 AI 落地过程中的成本、弹性和运维难题,更为企业带来了全新的算力管理模式。通过与英伟达等技术巨头的合作,阿里云函数计算等平台正引领着 AI 算力服务的新时代,为企业提供更加高效、灵活且经济的 AI 解决方案。在未来,Serverless GPU 将成为推动 AI 技术普及和商业化的关键力量,助力各行各业实现智能化转型。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
打赏
0
1
1
0
1031
分享
相关文章
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
OThink-MR1是OPPO与港科大联合研发的多模态优化框架,通过动态KL散度策略和奖励模型显著提升模型在视觉计数等复杂任务中的泛化能力。
68 20
OPPO联合港科大推出多模态推理优化框架 OThink-MR1:让AI学会『举一反三』,几何推理准确率暴增
当 MCP 遇上 Serverless,AI 时代的最佳搭档
随着 AI 技术的飞速发展,MCP(模型上下文协议) 逐渐崭露头角。这项由 Anthropic 公司(Claude 的创造者)于 2024 年 11 月推出的开放协议,正在重新定义 AI 与数字世界的交互方式。这项开放协议不仅让 AI 突破传统对话边界,更赋予其执行现实任务的能力,堪称人工智能向"行动智能体"进化的里程碑。然而从火热概念到落地业务,MCP 还需要找到云端“好搭档”。
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
清华联合DeepSeek推出奖励模型新标杆!DeepSeek-GRM:让AI学会自我批评,推理性能越跑越强
DeepSeek-GRM是由DeepSeek与清华大学联合研发的通用奖励模型,采用点式生成式奖励建模和自我原则点评调优技术,显著提升了模型质量和推理扩展性。
134 13
清华联合DeepSeek推出奖励模型新标杆!DeepSeek-GRM:让AI学会自我批评,推理性能越跑越强
AI做奥赛题能及格吗?OlympicArena:上海交大推出多学科认知推理基准测试框架,挑战AI极限
OlympicArena是由上海交大等机构联合推出的多学科认知推理基准测试框架,包含7大学科11,163道奥林匹克竞赛级题目,通过细粒度评估推动AI向超级智能发展。
67 12
AI做奥赛题能及格吗?OlympicArena:上海交大推出多学科认知推理基准测试框架,挑战AI极限
用AI精准定位问题代码,调试时间直接砍半!LocAgent:斯坦福开源代码调试神器,多跳推理锁定问题代码
LocAgent是由斯坦福大学、耶鲁大学等顶尖机构联合开发的代码定位框架,通过将代码库转化为图结构并利用大语言模型的多跳推理能力,实现精准的问题代码定位。
77 1
用AI精准定位问题代码,调试时间直接砍半!LocAgent:斯坦福开源代码调试神器,多跳推理锁定问题代码
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
66 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
Serverless MCP 运行时业界首发,函数计算支持阿里云百炼 MCP 服务!阿里云百炼发布业界首个全生命周期 MCP 服务,无需用户管理资源、开发部署、工程运维等工作,5 分钟即可快速搭建一个连接 MCP 服务的 Agent(智能体)。作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力。
129 0
 Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配部署指南
随着AI技术发展,大语言模型成为产业智能化的关键工具。DeepSeek系列模型以其创新架构和高效性能备受关注,其中R1-1.5B作为参数量最小的版本,适合资源受限场景。其部署仅需4核CPU、8GB RAM及15GB SSD,适用于移动对话、智能助手等任务。相比参数更大的R1-35B与R1-67B+,R1-1.5B成本低、效率高,支持数学计算、代码生成等多领域应用,是个人开发者和初创企业的理想选择。未来,DeepSeek有望推出更多小型化模型,拓展低资源设备的AI生态。
179 8
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等