640 (9).gif

当前，人工智能技术席卷全球，中国智能计算市场也步入高速成长期。其中，推理场景已逐渐成为大模型的核心应用方向，是推动产业智能化升级的重要驱动力。但在实际应用中，大模型的推理能力仍面临多重技术挑战，如对推理实时性和低延迟要求高、在高并发场景需要动态负载均衡、在模型复杂度与成本控制之间难平衡。已有方案在模型压缩、异构计算架构适配等方面仍存在效率折损，如何实现推理性能、资源利用率与经济性的有效平衡，已成为大模型应用规模化落地的关键技术挑战。

针对这些技术瓶颈，阿里云实现多项技术创新突破，通过升级芯片算子库与通信库、创新模型量化方法、优化自主研发的推理引擎，实现推理场景的性能加速。目前，相关的技术创新已经应用于阿里云AI Stack大模型训推一体机方案和百炼专属版等产品中，可支持单机运行DeepSeek-671B满血版（BF16精度）和Qwen系列全尺寸模型，并全面刷新性能指标，显著提升性价比及用户体验，真正实现“算得快”、“用得好”。

一.大模型推理优化是业界公认的难题

大模型在自然语言处理领域取得突破，模型参数规模从最初的数亿迅速增长至数千亿甚至万亿级别。规模的增长虽然带来了模型能力的提升，但也对推理服务的效率提出了严峻挑战。当前大语言模型推理面临的主要技术瓶颈包括：

预填充（Prefill）和解码（Decode）两阶段耦合导致总体资源利用率低：传统注意力机制的计算复杂度与序列长度呈平方关系，在长文本场景下成为主要性能瓶颈。
投机采样适应性差：现有投机采样方法在跨领域任务中表现不稳定，草稿生成质量下降明显。
混合专家模型并行困难：MoE架构中的动态路由机制导致计算负载不均衡，传统并行策略效率低下。
模型量化与精度的平衡：为了降低LLMs的资源需求，量化技术应运而生并，成为研究热点。但目前主流的量化办法均没有完美解决低比特下的性能保持问题。

阿里云AI Stack一体机解决方案，深度融合芯片和推理引擎，软硬联合优化，提出了一系列创新性解决方案：

预填充（Prefill）和解码（Decode）分离式推理架构FlowKV：解决预填充和解码两阶段耦合，导致资源利用率的问题，以及P/D分离带来的节点间KV缓存传输效率和节点调度的挑战。
检索增强的投机采样技术RASD：融合检索机制与投机采样，提高了草稿生成质量和跨领域适应性。
面向MoE的高效并行策略：采用DeepEP等分布式执行方案，有效解决了MoE模型的负载均衡问题。从算子层到系统层实现多层次协同优化，充分发挥硬件计算潜力。
自适应混合精度与低秩量化误差重建（AMLQ）量化技术：在三大主流的量化方法：统一精度量化（如GPTQ）、混合精度量化（如AWQ）、误差补偿方法（如LQER）之外，提出新的量化方法。

二.阿里云通过技术创新提升大模型推理效率

1.预填充（Prefill）和解码（Decode）分离式推理架构FlowKV

在大模型推理服务中，传统的“预填充（Prefill）和解码（Decode）耦合”架构存在资源利用率低的问题：预填充阶段计算密集，而解码阶段内存带宽受限，两者混部在同一设备上会导致相互干扰。

PD分离式推理架构通过分解这两阶段任务并进行针对性的优化，有助于提高整体服务的性能，但PD分离框架需要在预填充（Prefill）和解码（Decode）节点之间传输KV缓存，影响了整体的效率。传统方案如NCCL传输需频繁调用通信内核，而且KV缓存的物理内存不连续，导致传输延迟高（占单请求总延迟的25%以上）。另外PD分离架构还存在计算资源分配僵化的问题，固定比例的P/D节点难以应对动态负载。

为了应对上述挑战，阿里云团队提出了P/D分离式推理架构FlowKV。该框架在P/D分离架构之上，优化了KV缓存结构，减少了节点间的通信开销；并在P/D节点间实现了负载感知调度，显著提升了模型服务推理效率与系统吞吐量。

如下图FlowKV技术框架中，通过KV Cache传输模块（KV Cache Transfer Module）实现KV Cache的高速传输，同时使用全局控制器（Global Controller）实时监控P/D节点的负载和缓存状态，动态调度请求或弹性扩缩PD节点。

640 - 2025-07-11T171322.012.png

关键创新一：让KV Cache传输得更快

FlowKV通过两项关键技术实现96%的传输延迟降低（从0.944秒降至0.053秒）：

改进KV缓存结构：将原本按层分布的离散张量（形状为[L, 2, B, H]，L为层数）重组为连续内存的全局张量（[B, L, 2, H]），使每次传输的通信库调用次数减少至原来的1/(L×2)。
分段内存管理：借鉴操作系统的分段分配策略，优先为请求分配连续内存块，并通过双向段对齐技术合并传输块，将传输次数从O(n)优化至O(1)。例如，在单机部署中，传输延迟降低31.5倍，多机异构环境下仍实现12.6倍加速。

关键创新二：提升长序列场景推理性能

阿里云AI Stack 一体机方案，对 FlashMLA 进行了定向优化，支持更细粒度的分页缓存、支持变长 Seqlen 的动态负载均衡，相比开源 Triton MLA 实现了 2-10 倍的效率提升。在 DeepSeek-R1 的推理实测中，端到端推理性能提升20%，且对序列长度越长的场景提升效果越明显，有效增强了长上下文场景的性能。

关键创新三：负载感知的动态调度

FlowKV引入全局控制器+本地混合调度器的二级调度机制，通过实时监控节点负载（如队列长度、GPU利用率等），支持三种调度策略动态调整任务分配：

正常负载：优先选择缓存命中率高、负载低的节点，最小化首字生成时间（TTFT）和传输延迟。
计算失衡：当P或D节点过载时，空闲节点临时切换角色（如解码节点执行预填充任务），缓解资源瓶颈。
极端负载：自动扩缩容节点数量，例如在解码需求激增时动态增加D节点，提升系统弹性。

实验表明，FlowKV在多种场景下均表现优异：

吞吐量提升：在Llama-3.1-8B模型上，相比vLLM等基线系统，FlowKV的吞吐量平均提升25%，最高可达507 tokens/秒（输入10K tokens时）。
异构设备支持：通过将解码任务分配至高内存带宽设备（如H20节点），在跨域摘要任务（如LongBench的gov_report）中端到端延迟降低48.9%。
硬件兼容性：支持NCCL、IPC、RDMA等多种传输后端，适配单机与多机异构环境。

2.检索增强的投机采样技术RASD

当前主流大模型在解码（Decode）阶段一般采用自回归方式，一次生成一个Token，导致模型的推理速度很慢，需要多次运行模型才能生成完整的回答。

投机采样（Speculative Decoding，也称为投机解码、预测解码）技术利用草稿模型（Draft Model）预测大模型输出的多个候选Token，然后一次性并行验证这些候选Token，从而减少解码（Decode）步骤，加速模型推理。但是这种方案受限于草稿模型的性能（参数量和训练数据都较少），导致在草稿模型知识领域外的场景中效果不佳；另外草稿模型生成的Token在验证阶段接受度低，也限制了整体推理效率。

针对这一问题，阿里云团队提出了检索增强的投机采样技术RASD（Retrieval-Augmented Speculative Decoding），RASD首创“草稿模型生成和检索生成”的高效融合机制，通过引入检索机制，显著提升了草稿模型生成候选序列的质量。对于草稿模型难以处理的域外数据集，RASD技术可综合提升投机采样速度与最大输出长度，增强其文本生成能力。

RADS由三个主要步骤组成：检索过程、检索树剪枝和树融合、验证。如下图所示：

640 - 2025-07-11T171943.430.png

检索过程：通过利用知识源，增强候选Token的质量。
检索增强的投机采样技术RASD：融合检索机制与投机采样，提高了草稿生成质量和跨领域适应性。
检索树剪枝：利用草稿模型的置信度得分与接受率之间的强正相关性，筛选出高质量的检索结果。
树融合：将检索树和草案语言模型生成树进行合并，并更新注意力矩阵和位置嵌入，从而减少输入标记的冗余，提高计算速度。
验证：采用递归验证策略来支持树状注意力结构，目标大语言模型通过一次前向计算，就能得出树形草案中每个节点的生成概率。

相比其他投机采样技术，RASD展现出显著的加速性能优势：

对比PLD（Prompt Lookup Decoding，提示查找解码）方法，RASD在DocQA、Summary、Code及In-Domain QA等复杂和跨领域任务中，其加速效率平均提升39.15%。
对比EAGLE2（Extrapolation Algorithm for Greater Language-model Efficiency，大语言模型高效推断算法）方法，其加速效率平均提升9.67%。

3.面向MoE的高效并行策略

在传统MoE模型中，每个输入Token仅激活少量专家，这意味着数据需要在GPU之间频繁交换，标准的all-to-all通信模式在这种场景下效率低下，成为系统瓶颈。同时，专家激活模式的不均衡性也导致了GPU利用率的差异显著——某些GPU可能过载而其他GPU闲置。

640 - 2025-07-11T172135.191.png

DeepEP、EPLB、计算-通信Overlap等技术应运而生。DeepEP专注于优化专家间的通信效率，EPLB则确保计算资源在动态负载下的均衡分配，计算-通信Overlap聚焦于减少算力资源闲置。三者协同工作，使MoE架构能够充分发挥其理论优势。

深度专家并行（DeepEP）

DeepEP是专为MoE架构设计的通信库，其核心创新在于重新设计了Token分发与聚合的底层机制。传统all-to-all通信采用通用模式，而DeepEP则针对MoE特有的稀疏激活特性进行了深度优化。该技术提供了两个关键组件：1、高吞吐量的MoE分发内核，可智能合并小数据包减少通信次数；2、低延迟的聚合内核，采用流水线设计折叠（Overlap）计算与通信。测试表明，在一般性的MoE工作负载下，DeepEP相比传统MPI实现将通信开销降低40%以上。阿里云AI Stack一体机方案，发布了定向优化的 DeepEP 高性能通信库，搭配同样定向优化的 DeepGemm 高性能计算库，实现了矩阵运算效率的大幅优化和节点间零拷贝通信，支撑了从单 GPU 推理效率到多节点集群推理效率的端到端性能跃迁。

专家负载均衡（EPLB）

专家负载均衡（EPLB）技术解决了MoE架构中另一个关键问题——如何根据实时负载动态分配专家资源。EPLB采用三层架构实现智能调度：实时监控层：通过轻量级探针持续收集各专家的激活频率、计算耗时等关键指标，采样频率可达毫秒级。预测决策层：基于时间序列分析算法，预测未来时间窗内的负载分布。该模块特别考虑了MoE特有的长尾分布特性，对高频专家进行特殊优化。弹性执行层：支持专家实例的“热迁移”能力，可在不中断服务的情况下，将专家计算任务转移到负载较轻的设备。迁移过程采用差分同步技术，确保状态一致性。EPLB的调度算法综合考虑了多维因素：专家激活模式呈现的幂律分布、不同专家的计算复杂度差异、底层GPU集群的异构性，以及网络拓扑带来的通信成本。通过多目标优化，系统可在吞吐量、延迟和资源利用率之间实现最佳平衡。

计算-通信Overlap

传统推理流程中，通信（数据传输）与计算（专家推理）是串行的，即节点需要等待数据接收完成才开始计算，导致计算资源在通信时闲置、通信资源在计算时闲置。计算-通信Overlap则通过异步机制让模型计算过程与数据通信过程并行执行，而非串行等待，用尽硬件每一分算力。阿里云基于自研加速库实现了fused MoE算法，通过将计算过程拆解为“调度→计算→通信→组合”多个阶段，各阶段在不同硬件单元并行执行，实现了计算与通信的融合操作，达到了计算与通信高效重叠的目标。同时还基于阿里云AI Stack一体机方案，发布了定向优化的sailSHMEM 通信库，通过统一内存抽象和高性能通信原语，将多GPU内存抽象为了统一的地址空间，并实现了与标准开源通信库版本的兼容，大幅提升了开发者的易用性，进一步提升了算力和显存利用率。

4.自适应混合精度与低秩量化误差重建（AMLQ）量化技术

模型量化是通过降低模型参数和激活值的表示精度，实现模型体积压缩和推理加速的关键技术。当前主流量化方法可分为三类：

统一精度量化（如GPTQ）：实现简单，但忽略层间差异易导致某些层精度损失过大；
混合精度量化（如AWQ）：需要人工设定各层精度，缺乏通用标准导致泛化性不足；
误差补偿方法（如LQER）：基于权重的低秩近似效果有限。

但这些方法均未能完全解决模型在低比特量化下（2-3bits）的性能保持问题，亟需新的技术突破。阿里云团队推出的AMLQ量化技术，采用双阶段优化策略，分别针对离线校准和在线推理进行优化，以平衡量化精度与计算效率，在保持高效推理的同时最大化量化模型的性能。

离线校准阶段：AMLQ使用128个WikiText样本（2048tokens/样本）进行层敏感度分析，主要完成以下任务：

敏感度评估：逐层计算不同比特精度（2-16bit）下的输出误差，量化其敏感度δ，并记录最优比特组合候选。
低秩适配性分析：对每层输出的量化误差ΔY进行PCA分解，评估不同秩（0/32/64/96/128）的重建效果，确定最佳秩分配。
参数冻结：基于贪心策略，在总比特数约束下（如4.3 BPW）确定各层的最终量化配置（比特+秩），并生成低秩补偿矩阵A/B。

在线推理阶段：AMLQ动态应用离线阶段的优化结果，具体包括：

混合精度计算：根据预定义的比特配置，使用向量化指令高效反量化权重，结合分组计算（group size=32/64/128）减少内存访问开销。
低秩补偿：通过优化的bgmv算子（参考Punica）并行计算BAX项，仅增加5%延迟，但显著提升低比特下的输出精度。
硬件适配：针对不同GPU架构（如Ampere/Hopper）优化核函数，确保量化模型的推理加速。

三.软硬一体化优化后综合性能表现刷新纪录

通过对多套实测数据的对比分析，我们看到，通过硬件与软件协同优化的能力，让大模型推理在上下文长度、吞吐性能、并发能力以及用户体验等多个核心维度上，实现跨越式进步：

提升单机吞吐性能，对比四月的芯片SDK1.4版本，五月发布的1.5版本在短短一个月之内吞吐性能再创新高，单机运行DeepSeek-R1-BF16精度模型吞吐性能提升40%。
提升单机并发能力，在保障服务体验的前提下（即平均首字延时低于4秒，平均字间延时低于100毫秒），阿里云APG单机运行DeepSeek-R1-BF16精度模型可支持国内领先的并发路数。
提升用户体验，对比芯片SDK 1.4版本，五月发布的1.5版本平均首字延时大大降低，实现“输入即思考”的丝滑体验，单机运行DeepSeek-R1-BF16精度模型首字延迟降低57%。
提升单机上下文长度，达到国内最高的上下文长度，对于论文汇总分析和科研成果评价等对上下文长度有极高要求的场景，输入超长上下文是常见需求。

阿里云AI Stack一体机方案在大模型推理领域的创新实践，充分验证了“软硬件协同优化”技术路线的可行性。面向未来，阿里云将沿着Scale Up技术路径，以芯片、模型、框架三大维度，持续突破单机性能边界，为行业构建高能效、高性价比的推理解决方案。同时，也将紧贴行业和市场需求，在超节点架构与分布式/分离式集群领域持续创新迭代，加速推动技术成果商业落地。

四. 相关论文

FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling（低延迟KVCache传输和负载感知调度的分离式推理框架）

全文地址

RASD: Retrieval-Augmented Speculative Decoding（检索增强推测解码技术）

全文地址

Adaptive Quantization Error Reconstruction for LLMs with Mixed Precision（大模型混合精度低秩误差补偿量化技术）

全文地址

Scale Up！阿里云让大模型一体机真正实现“算得快”、“用得好”

一.大模型推理优化是业界公认的难题

二.阿里云通过技术创新提升大模型推理效率