大模型推理性能翻倍秘籍:计算巢PD分离快速部署指南

简介: 阿里云计算巢模型市场提供开箱即用的大语言模型PD分离(Prefill-Decode分离)部署方案,基于ACS集群与专家并行优化,3分钟极速上线Qwen、Deepseek等MoE模型,吞吐提升1.5–2倍,零运维、高可用、企业级监控一应俱全。

方案概述

计算巢模型市场为大语言模型(LLM)提供了开箱即用的 PD 分离部署方案,无需手动配置复杂的基础设施即可实现生产级别的高性能推理服务。本方案基于阿里云容器计算服务 ACS集群,采用 PD 分离(Prefill-Decode 分离)架构和专家并行(Expert Parallelism)优化,为 MoE(Mixture of Experts)架构的大模型提供极致性能体验。

当前支持Qwen、Deepseek、智谱等系列模型的快速部署。

image.png

核心优势

  • 极简部署体验:通过计算巢控制台可视化界面,3 分钟即可完成 LLM 模型 PD 分离部署。全程无需手动配置 ACS 集群、OSS 存储、Kubernetes 组件、网络拓扑等复杂基础设施,真正实现"零门槛"上手,让您专注于业务创新而非底层运维。
  • SOTA 级性能调优:基于阿里云内部大规模生产实践和性能基准测试(SOTA)结果,预置最优性能参数配置。无需深入理解 PD 分离原理、专家并行机制、显存管理策略等复杂技术细节,即可获得业界领先的推理吞吐量和延迟表现。在生产环境中,同等算力下吞吐量可达到单机部署的1.5到2倍。详情可参考性能测试。
  • 企业级生产能力:开箱即用的企业级特性,包括多维度监控大盘(模型级、Pod 级、GPU 级)、支持弹性伸缩等,保障生产环境稳定。

单机部署 vs PD 分离

基本原理

LLM的推理过程可分为两个阶段:

Prefill (提示词处理) 阶段:此阶段一次性处理用户输入的全部提示词(Prompt),并行计算所有输入Token的注意力,并生成初始的KV缓存。这个过程是计算密集型(Compute-Bound)的,需要强大的并行计算能力,但只在请求开始时执行一次。

Decode (解码生成) 阶段:此阶段是自回归过程,模型根据已有的KV缓存,逐个生成新的Token。每一步的计算量很小,但需要反复、快速地从显存中加载巨大的模型权重和KV缓存,因此是内存带宽密集型(Memory-Bound)的。

Prefill阶段常采用首Token延迟(Time to first token,TTFT)作为SLO,即从用户输入prompt到返回首Token的时延。用户对于TTFT时延容忍度较高,生产环境一般约束mean TTFT<3s即可。

Decode阶段采用输出Token延迟(Time per output token, TPOT)作为SLO,即LLM模型生成后续Token的时延。用户对于TPOT时延容忍度较低,生产环境一般约束mean TPOT<50ms。

image.png

单机部署

为了提升GPU利用率,推理引擎在处理多个用户请求时往往会采用凑批处理(Continuous Batching)的方式,将不同请求的Prefill阶段和Decode阶段放在一个批次里调度。Prefill阶段需要处理全部提示词因此计算时间长,Decode只需要计算一个Token因此计算时间短。若在同一批次中调度,Decode阶段会因等待Prefill导致时延增加,进而增加系统整体延迟并降低吞吐量。

image.png

PD 分离架构

image.png

PD分离架构的解决方案就是将这两个阶段解耦,将Prefill和Decode阶段分开部署在不同GPU上。通过分离部署,可以针对不同阶段的计算特性独立配置硬件资源、并行策略和优化参数,实现资源利用率和性能的双重提升。

生产环境性能测试

📊 2台H200 1P1D 性能测试对比表

注:H200性能约为H20的2.5倍,设H20的吞吐数为1

image.png

关键结果分析

🔍 为什么短上下文出现“正向优化”?

image.png

📉 为什么长上下文出现“负优化”?

image.png

🛠️ 长上下文负优化解决方案

image.png

部署流程

  1. 计算巢模型市场页面选择要部署的模型,以Deepseek-R1为例,单击开始部署。

image.png

点击开始部署后会进入到模型部署页面,选择ACS集群部署。

  1. 选择SGLang->ACS集群PD分离方式进行部署。部分模型支持PD分离配置预估工具,可以根据您的需求,自动生成适配的部署参数。如部分模型未支持此工具,可以采用默认部署参数或自行调整。

image.png

image.png

  1. 基础资源配置可选择ACS集群与可用区等参数配置。

image.png

  1. 模型权重配置,可以选择新建Bucket或已有Bucket。具体配置含义参见模型权重同步机制

image.png

image.png

  1. 注意事项,如您在部署过程中存在疑问,可进入钉钉群寻求技术支持。

image.png

  1. 确认订单后可看到费用预估和依赖权限检查,单击立即创建进入到服务实例创建流程。权限问题详见权限检查。

image.png

技术支持

如果您在部署模型服务或使用服务过程中遇到任何问题,可加入下面的钉钉群寻求技术支持。

image.png

相关文档

介绍来计算巢部署LLM模型服务的原理与常见问题。

展示如何在ACK上手动部署PD分离的模型服务。

相关文章
|
10天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
11237 110
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
10天前
|
人工智能 IDE API
2026年国内 Codex 安装教程和使用教程:GPT-5.4 完整指南
Codex已进化为AI编程智能体,不仅能补全代码,更能理解项目、自动重构、执行任务。本文详解国内安装、GPT-5.4接入、cc-switch中转配置及实战开发流程,助你从零掌握“描述需求→AI实现”的新一代工程范式。(239字)
6126 136
|
1天前
|
人工智能 安全 API
|
8天前
|
人工智能 并行计算 Linux
本地私有化AI助手搭建指南:Ollama+Qwen3.5-27B+OpenClaw阿里云/本地部署流程
本文提供的全流程方案,从Ollama安装、Qwen3.5-27B部署,到OpenClaw全平台安装与模型对接,再到RTX 4090专属优化,覆盖了搭建过程的每一个关键环节,所有代码命令可直接复制执行。使用过程中,建议优先使用本地模型保障隐私,按需切换云端模型补充功能,同时注重显卡温度与显存占用监控,确保系统稳定运行。
2179 6
|
7天前
|
人工智能 Linux API
离线AI部署终极手册:OpenClaw+Ollama本地模型匹配、全环境搭建与问题一站式解决
在本地私有化部署AI智能体,已成为隐私敏感、低成本、稳定运行的主流方案。OpenClaw作为轻量化可扩展Agent框架,搭配Ollama本地大模型运行工具,可实现完全离线、无API依赖、无流量费用的个人数字助理。但很多用户在实践中面临三大难题:**不知道自己硬件能跑什么模型、显存/内存频繁爆仓、Skills功能因模型不支持工具调用而失效**。
3618 7
|
12天前
|
存储 人工智能 定位技术
一些 Harness Engineering 的实践
Harness Engineering 是AI智能体时代的新型工程范式,核心是为Agent构建可靠环境而非优化模型。OpenAI、Anthropic、LangChain等实践表明:通过结构化知识库、双重智能体架构、组件化Harness设计及自动化反馈回路,可提升Agent在长周期、大规模任务中的稳定性与自主性。
3112 3