云上AI推理平台全掌握 (5):大模型异步推理服务

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 针对大模型推理服务中“高计算量、长时延”场景下同步推理的弊端,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,解决了异步推理的负载均衡、实例异常时任务重分配等问题,确保请求不丢失、实例不过载。

在大模型推理的实际应用中,“高计算量、长时延”的推理场景(如 AIGC、视频理解、长文档摘要等)往往需要数十秒甚至分钟级的计算时间。传统同步推理模式导致客户端长时间阻塞,不仅造成连接资源浪费,更可能因网络抖动造成请求失败。行业数据表明,当推理耗时超过15秒时,同步请求的超时率会陡增至62%,严重制约了 AI 服务在高延迟场景下的可用性。


对于上述提到的推理耗时比较长或者推理时间无法确定的场景,同步等待结果会带来 HTTP 长连接断开、客户端超时等诸多问题。在 AI 推理领域通常使用异步推理来解决上述问题,即请求发送至服务端,客户端不再同步等待结果,而是选择定期去查询结果,或通过订阅的方式在请求计算完成后等待服务端的结果推送。业界在异步推理的使用过程中,也会出现如下常见的问题:


  • 异步推理的负载均衡无法使用 round robin 算法,需要根据各个实例的实际负载情况进行请求的分发。
  • 异步推理计算实例异常,该实例尚未完成计算的任务需要重新分配给其他实例进行计算。


基于对如上问题的思考,阿里云人工智能平台 PAI 推出了一套基于独立的队列服务异步推理框架,用来解决上述的请求分发的问题。


实现原理 图1.png

  • 在创建异步推理服务时,会在服务内部集成两个子服务,分别是推理子服务队列子服务。队列子服务拥有两个内置的消息队列,即输入(input)队列和输出(sink)队列。服务请求会先发送到队列子服务的输入队列中,推理子服务实例中的 EAS 服务框架会自动订阅队列以流式地方式获取请求数据,调用推理子服务中的接口对收到的请求数据进行推理,并将响应结果写入到输出队列中。
  • 当输出队列满时,即无法向输出队列中写入数据时,服务框架也会停止从输入队列中接收数据,避免无法将推理结果输出到输出队列。如果您不需要输出队列,例如将推理结果直接输出到 OSS 或者您自己的消息中间件中,则可以在同步的 HTTP 推理接口中返回空,此时输出队列会被忽略。
  • 创建一个高可用的队列子服务,用于接收客户端发送的请求。推理子服务的实例根据自己所能承受的并发度来订阅指定个数的请求,队列子服务会保证每个推理子服务实例上处理的请求不会超过订阅的窗口大小,通过该方式来保证不会存在实例过载,最终将订阅或查询的数据返回给客户端。
  • 队列子服务通过检测推理子服务实例的连接状态,对其进行健康检查,如果因该实例异常导致连接断开,队列子服务会将该实例标记为异常,已经分发给该实例进行处理的请求会重新推送给其他正常实例进行处理,以此来保证在异常情况下请求数据不会丢失。


使用方式


1. 登录 PAI 控制台 https://x.sm.cn/1CJ40Ve,在页面上方选择目标地域,并在右侧选择目标工作空间,然后单击进入 EAS


2. 在推理服务页签,单击部署服务,选择自定义模型部署 > 自定义部署


3. 在环境信息的区域,勾选异步队列的开关配置即可。


图2.png

步推理服务部署完成后,您可在服务的详情页中查看异步队列里面的相关信息,包括输入与输出队列的当前数据量及总量,并可以查看访问服务的每一个请求数据的处理情况。

图3.png

自动扩缩容


在异步推理场景中,系统可以根据队列的状态动态地对推理服务的实例数量进行伸缩,并且支持在队列为空时将推理服务的实例数缩容到0以进一步降低成本。


图4.png

异步推理服务部署完成后,您可在服务的详情页来配置异步服务的自动扩缩容策略,通过异步队列长度来自定义服务的弹性配置。

图5.png

系列简介:云上AI推理平台全掌握


本系列 《云上 AI 推理平台全掌握》 将深度解析阿里云 AI 推理平台的技术架构、最佳实践与行业应用,涵盖以下核心内容:


1. 技术全景:从分布式推理、动态资源调度到 Serverless,揭秘支撑千亿参数模型的底层能力。


2. 实战指南:通过压测调优、成本优化、全球调度等场景化案例,手把手教你构建企业级推理服务。


3. 行业赋能:分享金融、互联网、制造等领域的落地经验,展示如何通过云上推理平台加速 AI 业务创新。


无论您是 AI 开发者、架构师,还是企业决策者,本系列都将为您提供从理论到实践的全方位指导,助力您在 AI 时代抢占先机。让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!


立即开启云上 AI 推理之旅,就在阿里云人工智能平台 PAI。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
27天前
|
人工智能 API 开发者
Dify x AiOnly平台:手把手教你调用GPT-5从零构建AI工作流!
本文介绍如何通过Dify与AiOnly平台,快速构建基于GPT-5等顶尖大模型的AI应用。涵盖环境部署、模型接入、工作流编排及实战案例,助力开发者低门槛打造专属聊天机器人,轻松实现AI应用落地。(238字)
|
12天前
|
存储 人工智能 NoSQL
AI大模型应用实践 八:如何通过RAG数据库实现大模型的私有化定制与优化
RAG技术通过融合外部知识库与大模型,实现知识动态更新与私有化定制,解决大模型知识固化、幻觉及数据安全难题。本文详解RAG原理、数据库选型(向量库、图库、知识图谱、混合架构)及应用场景,助力企业高效构建安全、可解释的智能系统。
|
23天前
|
人工智能 缓存 监控
使用LangChain4j构建Java AI智能体:让大模型学会使用工具
AI智能体是大模型技术的重要演进方向,它使模型能够主动使用工具、与环境交互,以完成复杂任务。本文详细介绍如何在Java应用中,借助LangChain4j框架构建一个具备工具使用能力的AI智能体。我们将创建一个能够进行数学计算和实时信息查询的智能体,涵盖工具定义、智能体组装、记忆管理以及Spring Boot集成等关键步骤,并展示如何通过简单的对话界面与智能体交互。
523 1
|
23天前
|
人工智能 Java API
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
本文介绍AI大模型的核心概念、分类及开发者学习路径,重点讲解如何选择与接入大模型。项目基于Spring Boot,使用阿里云灵积模型(Qwen-Plus),对比SDK、HTTP、Spring AI和LangChain4j四种接入方式,助力开发者高效构建AI应用。
773 122
AI 超级智能体全栈项目阶段一:AI大模型概述、选型、项目初始化以及基于阿里云灵积模型 Qwen-Plus实现模型接入四种方式(SDK/HTTP/SpringAI/langchain4j)
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
279 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
17天前
|
人工智能 自然语言处理 安全
AI助教系统:基于大模型与智能体架构的新一代教育技术引擎
AI助教系统融合大语言模型、教育知识图谱、多模态交互与智能体架构,实现精准学情诊断、个性化辅导与主动教学。支持图文语音输入,本地化部署保障隐私,重构“教、学、评、辅”全链路,推动因材施教落地,助力教育数字化转型。(238字)
|
26天前
|
人工智能 运维 安全
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
迈格网络推出“天机”新版本,以AI自学习、全端防护、主动安全三大核心能力,重构网络安全防线。融合AI引擎与DeepSeek-R1模型,实现威胁预测、零日防御、自动化响应,覆盖Web、APP、小程序全场景,助力企业从被动防御迈向主动免疫,护航数字化转型。
从被动防御到主动免疫进化!迈格网络 “天机” AI 安全防护平台,助推全端防护性能提升
|
12天前
|
存储 人工智能 安全
《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境
Confidential MaaS 将从前沿探索逐步成为 AI 服务的安全标准配置。
|
18天前
|
人工智能 Java 测试技术
【556AI】(一)IntelliJ IDEA全流程AI设计开发平台
556AI支持IDEA、PHPSTORM、PYCHARM最新版 AI平台定位是开发大型软件项目,大型软件项目代码AI生成引擎,OA/ERP/MES 百万行代码一次性AI生成 支持axure原型导入预览,集成AI软件设计/AI软件开发/AI软件测试整个流程 支持 若依 JEECG SmartAdmin THINKPHP Django等多种JAVA/PHP/python框架 实现了java php python 的统一增强行调试方式 可以链接多个AI大模型,进行AI生成代码
239 8

热门文章

最新文章