当大模型推理服务遭遇突发流量,扩容往往慢在“最后一分钟”:新实例扩缩容过程中,仍需从存储系统上拉取数十乃至上百 GB 的模型或数据,网络 IO 成为瓶颈。当突发流量来临时,这种延迟会导致自动扩缩容机制失效,算力在等待模型加载的过程中持续闲置,而客户请求已在接入层大量堆积。另外在多模态 AIGC 生成的场景中,推理请求会涉及到频繁切换基础模型和 lora 模型,每次切换都需从存储系统回源读取模型,导致推理延迟大幅增加。
为了解决这个问题,阿里云人工智能平台 PAI 推理服务 PAI-EAS 提供本地目录内存缓存(Memory Cache)的大模型分发加速功能,有效应对大模型服务突发流量场景。
一、大模型分发加速实现原理
PAI-EAS 大模型分发加速功能具体实现原理如下图所示:
- 利用空闲内存将本地目录中的模型文件缓存到内存中。
- 该缓存支持 LRU 淘汰策略和实例间共享,以文件系统目录形式呈现。
- 无需修改业务代码,直接读取缓存配置的目标本地目录中的文件,即可享受加速效果。
- 同一服务的不同实例会形成 p2p 网络,实例扩容时可通过 p2p 网络就近读取缓存文件,加速扩容速度。
二、模型切换加速效果
实验数据表明,使用 PAI-EAS 大模型分发加速功能后,模型切换加速效果如下图所示。(注:单位为秒,下表为实验结果,最终的加速效果以实际情况为准。)
- 当缓存中没有对应的模型时,大模型缓存加速会自动回源读取模型。如该文件通过 OSS 挂载,则大模型缓存加速会从 OSS 拉取文件。
- 服务内的多个实例会形成内存共享集群,加载相同模型时直接从远端内存拉取,读取时间与文件大小呈线性相关。
- 服务扩容时,新实例会加入内存共享集群,初始化模型可直接从远端读取,弹性扩缩容更快,适合弹性场景。
二、使用方法
1. 登录 PAI 控制台 https://x.sm.cn/CHmCjAd,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入 EAS。
2. 在推理服务页签,单击部署服务,选择自定义模型部署> 自定义部署。
3. 在服务功能的区域,进行内存缓存加速的相关配置。
PAI 同时发布了模型权重服务能力,可以大幅度降低 LLM 场景下的推理服务冷启动与扩容时长。详见链接:PAI 重磅发布模型权重服务,大幅降低模型推理冷启动与扩容时长
三、系列简介:云上AI推理平台全掌握
本系列 《云上 AI 推理平台全掌握》 将深度解析阿里云 AI 推理平台的技术架构、最佳实践与行业应用,涵盖以下核心内容:
1. 技术全景:从分布式推理、动态资源调度到 Serverless,揭秘支撑千亿参数模型的底层能力。
2. 实战指南:通过压测调优、成本优化、全球调度等场景化案例,手把手教你构建企业级推理服务。
3. 行业赋能:分享金融、互联网、制造等领域的落地经验,展示如何通过云上推理平台加速 AI 业务创新。
无论您是 AI 开发者、架构师,还是企业决策者,本系列都将为您提供从理论到实践的全方位指导,助力您在 AI 时代抢占先机。让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!
立即开启云上 AI 推理之旅,就在阿里云人工智能平台 PAI。