方案概述
计算巢模型市场为大语言模型(LLM)提供了开箱即用的 PD 分离部署方案,无需手动配置复杂的基础设施即可实现生产级别的高性能推理服务。本方案基于阿里云容器计算服务 ACS集群,采用 PD 分离(Prefill-Decode 分离)架构和专家并行(Expert Parallelism)优化,为 MoE(Mixture of Experts)架构的大模型提供极致性能体验。
当前支持Qwen、Deepseek、智谱等系列模型的快速部署。
核心优势
- 极简部署体验:通过计算巢控制台可视化界面,3 分钟即可完成 LLM 模型 PD 分离部署。全程无需手动配置 ACS 集群、OSS 存储、Kubernetes 组件、网络拓扑等复杂基础设施,真正实现"零门槛"上手,让您专注于业务创新而非底层运维。
- SOTA 级性能调优:基于阿里云内部大规模生产实践和性能基准测试(SOTA)结果,预置最优性能参数配置。无需深入理解 PD 分离原理、专家并行机制、显存管理策略等复杂技术细节,即可获得业界领先的推理吞吐量和延迟表现。在生产环境中,同等算力下吞吐量可达到单机部署的1.5到2倍。详情可参考性能测试。
- 企业级生产能力:开箱即用的企业级特性,包括多维度监控大盘(模型级、Pod 级、GPU 级)、支持弹性伸缩等,保障生产环境稳定。
单机部署 vs PD 分离
基本原理
LLM的推理过程可分为两个阶段:
●Prefill (提示词处理) 阶段:此阶段一次性处理用户输入的全部提示词(Prompt),并行计算所有输入Token的注意力,并生成初始的KV缓存。这个过程是计算密集型(Compute-Bound)的,需要强大的并行计算能力,但只在请求开始时执行一次。
●Decode (解码生成) 阶段:此阶段是自回归过程,模型根据已有的KV缓存,逐个生成新的Token。每一步的计算量很小,但需要反复、快速地从显存中加载巨大的模型权重和KV缓存,因此是内存带宽密集型(Memory-Bound)的。
Prefill阶段常采用首Token延迟(Time to first token,TTFT)作为SLO,即从用户输入prompt到返回首Token的时延。用户对于TTFT时延容忍度较高,生产环境一般约束mean TTFT<3s即可。
Decode阶段采用输出Token延迟(Time per output token, TPOT)作为SLO,即LLM模型生成后续Token的时延。用户对于TPOT时延容忍度较低,生产环境一般约束mean TPOT<50ms。
单机部署
为了提升GPU利用率,推理引擎在处理多个用户请求时往往会采用凑批处理(Continuous Batching)的方式,将不同请求的Prefill阶段和Decode阶段放在一个批次里调度。Prefill阶段需要处理全部提示词因此计算时间长,Decode只需要计算一个Token因此计算时间短。若在同一批次中调度,Decode阶段会因等待Prefill导致时延增加,进而增加系统整体延迟并降低吞吐量。
PD 分离架构
PD分离架构的解决方案就是将这两个阶段解耦,将Prefill和Decode阶段分开部署在不同GPU上。通过分离部署,可以针对不同阶段的计算特性独立配置硬件资源、并行策略和优化参数,实现资源利用率和性能的双重提升。
生产环境性能测试
📊 2台H200 1P1D 性能测试对比表
注:H200性能约为H20的2.5倍,设H20的吞吐数为1
关键结果分析
🔍 为什么短上下文出现“正向优化”?
📉 为什么长上下文出现“负优化”?
🛠️ 长上下文负优化解决方案
部署流程
- 在计算巢模型市场页面选择要部署的模型,以Deepseek-R1为例,单击开始部署。
点击开始部署后会进入到模型部署页面,选择ACS集群部署。
- 选择SGLang->ACS集群PD分离方式进行部署。部分模型支持PD分离配置预估工具,可以根据您的需求,自动生成适配的部署参数。如部分模型未支持此工具,可以采用默认部署参数或自行调整。
- 基础资源配置可选择ACS集群与可用区等参数配置。
- 模型权重配置,可以选择新建Bucket或已有Bucket。具体配置含义参见模型权重同步机制。
- 注意事项,如您在部署过程中存在疑问,可进入钉钉群寻求技术支持。
- 确认订单后可看到费用预估和依赖权限检查,单击立即创建进入到服务实例创建流程。权限问题详见权限检查。
技术支持
如果您在部署模型服务或使用服务过程中遇到任何问题,可加入下面的钉钉群寻求技术支持。
相关文档
介绍来计算巢部署LLM模型服务的原理与常见问题。
展示如何在ACK上手动部署PD分离的模型服务。