大模型推理性能翻倍秘籍：计算巢PD分离快速部署指南-阿里云开发者社区

大模型推理性能翻倍秘籍：计算巢PD分离快速部署指南

2026-04-01 15

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云计算巢模型市场提供开箱即用的大语言模型PD分离（Prefill-Decode分离）部署方案，基于ACS集群与专家并行优化，3分钟极速上线Qwen、Deepseek等MoE模型，吞吐提升1.5–2倍，零运维、高可用、企业级监控一应俱全。

方案概述

计算巢模型市场为大语言模型（LLM）提供了开箱即用的 PD 分离部署方案，无需手动配置复杂的基础设施即可实现生产级别的高性能推理服务。本方案基于阿里云容器计算服务 ACS集群，采用 PD 分离（Prefill-Decode 分离）架构和专家并行（Expert Parallelism）优化，为 MoE（Mixture of Experts）架构的大模型提供极致性能体验。

当前支持Qwen、Deepseek、智谱等系列模型的快速部署。

核心优势

极简部署体验：通过计算巢控制台可视化界面，3 分钟即可完成 LLM 模型 PD 分离部署。全程无需手动配置 ACS 集群、OSS 存储、Kubernetes 组件、网络拓扑等复杂基础设施，真正实现"零门槛"上手，让您专注于业务创新而非底层运维。
SOTA 级性能调优：基于阿里云内部大规模生产实践和性能基准测试（SOTA）结果，预置最优性能参数配置。无需深入理解 PD 分离原理、专家并行机制、显存管理策略等复杂技术细节，即可获得业界领先的推理吞吐量和延迟表现。在生产环境中，同等算力下吞吐量可达到单机部署的1.5到2倍。详情可参考性能测试。
企业级生产能力：开箱即用的企业级特性，包括多维度监控大盘（模型级、Pod 级、GPU 级）、支持弹性伸缩等，保障生产环境稳定。

单机部署 vs PD 分离

基本原理

LLM的推理过程可分为两个阶段：

●Prefill (提示词处理) 阶段：此阶段一次性处理用户输入的全部提示词（Prompt），并行计算所有输入Token的注意力，并生成初始的KV缓存。这个过程是计算密集型（Compute-Bound）的，需要强大的并行计算能力，但只在请求开始时执行一次。

●Decode (解码生成) 阶段：此阶段是自回归过程，模型根据已有的KV缓存，逐个生成新的Token。每一步的计算量很小，但需要反复、快速地从显存中加载巨大的模型权重和KV缓存，因此是内存带宽密集型（Memory-Bound）的。

Prefill阶段常采用首Token延迟(Time to first token，TTFT)作为SLO，即从用户输入prompt到返回首Token的时延。用户对于TTFT时延容忍度较高，生产环境一般约束mean TTFT<3s即可。

Decode阶段采用输出Token延迟（Time per output token, TPOT）作为SLO，即LLM模型生成后续Token的时延。用户对于TPOT时延容忍度较低，生产环境一般约束mean TPOT<50ms。

单机部署

为了提升GPU利用率，推理引擎在处理多个用户请求时往往会采用凑批处理（Continuous Batching）的方式，将不同请求的Prefill阶段和Decode阶段放在一个批次里调度。Prefill阶段需要处理全部提示词因此计算时间长，Decode只需要计算一个Token因此计算时间短。若在同一批次中调度，Decode阶段会因等待Prefill导致时延增加，进而增加系统整体延迟并降低吞吐量。