编者按:当大模型从简单的单轮对话,演进到工具调用、再到多个 Agent 协同完成复杂任务时,一个被大多数人忽视的问题正在悄然成为性能瓶颈的核心矛盾:每一次 LLM 调用,都在重复计算那些已经算过的上下文。近日,在上海举办的 Agentic AICon 智能体应用与架构工程大会上,来自龙蜥社区的开发者带来了一场题为《面向多智能体的 KVCache 优化》的技术分享。他从 Agentic 推理的底层视角出发,系统性地拆解了多智能体时代面临的内存与延迟挑战,并深入展示了 Mooncake 作为 KVCache 数据基座的分离架构设计与大规模生产实践。




多 Agent 时代,“工作记忆”正在爆炸
我们今天看到的 Agent 系统,早已不是“你问我答”的简单对话。一个典型的多 Agent 工作流中,每次 LLM 调用需要携带的上下文包括:系统提示词、工具定义与函数签名、多轮对话历史,以及上下游 Agent 之间的中间状态传递。这些共同构成了 Agent 的“工作记忆”。
一个直观的数字:10 个 Agent 协作 20 轮交互,工作记忆可以轻松达到百万级 Token。
问题在于,当前的推理引擎把每次调用都当作独立请求处理——完整的上下文被反复 Prefill,相同的前缀被一遍遍重新计算。带来的直接后果是:显存碎片化加剧,首 Token 延迟(TTFT)急剧恶化。在某些场景下,无 KVCache 持久化时 TTFT 劣化高达 136 倍;MCP 动态加载工具导致缓存命中率从 85% 骤降至 0%;即便是 JSON 序列化的字段顺序差异,也能让 TTFT 变慢 65%。
这次演讲中提出了一个颇具洞察力的类比:KVCache 之于 Agentic 系统,正如数据库的 Buffer Pool 之于传统数据库。 30 年前,数据库从通用操作系统中独立出来,开始自己管理内存;今天,Agentic 推理正在从通用 LLM Serving 中独立出来,走向自主管理 KVCache 的道路。
Agentic 推理 vs 传统推理:一场根本性的范式转变
传统推理工作负载以单轮或少量多轮交互为主,输入输出比大约在 10:1,工作流呈线性拓扑,KVCache 在请求结束后即可释放。而 Agentic 推理的特征是数十轮的 LLM-Tool 循环调用,输入输出比可达 100:1 以上,工作流呈现 DAG 甚至动态图结构,KVCache 需要跨工具调用持久化,并在多个 Agent 之间共享。
这意味着,针对传统推理设计的缓存策略在 Agentic 场景下几乎全面失效。我们需要一套全新的、从基础设施层到应用协议层的分层优化技术栈。
Mooncake:为分离架构而生的 KVCache 数据基座
Mooncake 是这套技术栈的基础设施核心。作为一个面向大模型推理的分离架构项目,Mooncake 提供了 Transfer Engine(全链路零拷贝、多网卡池化,最高支持 8×400Gbps 聚合带宽)、KVCache Store(透明多级缓存,覆盖 VRAM/DRAM/SSD/Remote)以及 Elastic EP 等关键能力。目前 Mooncake 在 GitHub 上已获得超过 4000 Star,并集成了 12+ 生态项目,覆盖推理、中间件和强化学习训练三大场景。
在分离架构方面,Mooncake 支撑了多种 Disaggregation 模式:Prefill-Decode 分离(PD Disaggregation)、弹性 PD 分离(EPD)、强化学习分离(RL Disaggregation)以及 Attention-Free 分离(AF Disaggregation)。这些模式的共同目标是将不同阶段的计算资源独立扩展,最大化资源利用效率。
在与 SGLang 推理引擎的深度集成中,Mooncake Store 作为 L3 级缓存,实现了跨机 KV 共享与持久化,支持“无限长上下文”(Infinite Context),并通过流水线掩盖和零拷贝 RDMA 传输,将 GPU 计算与 KV 数据传输重叠执行,有效隐藏了 I/O 延迟。实测数据显示,引入 L3 GPU 缓存后,输入 Token 吞吐量从 6576 token/s 提升至 15022 token/s,请求吞吐量从 0.61 req/s 提升至 1.39 req/s,均实现超过 2 倍的性能跃升。
前沿探索:Agent 专属的 Cache 优化策略与 Mooncake 底座
如果说 Mooncake 构建了 KVCache 管理的“高速公路网”,那么上层涌现的各类 Agent 专属优化策略,就是在这条高速公路上跑起来的"智能调度系统"。
近年来,学术界和开源社区围绕 Agent 场景催生了一批前沿的 KVCache 优化研究——它们分别从调度策略、缓存复用、工作流感知等不同角度切入,试图解决多 Agent 协作中的记忆瓶颈。而分享中着重指出,这些策略要真正在生产环境中落地,离不开一个高性能、低延迟的底层 KV 数据基座。Mooncake 正是为此而生的基础设施——无论是空间-时间联合调度、跨 Agent 缓存复用,还是全局工作流优化,它们所需的跨节点 KV 传输、多级缓存持久化、共享内存池,都可以由 Mooncake 提供开箱即用的支撑。
Tokencake:空间-时间联合调度
Agent 在等待工具返回时 GPU 处于空转状态,而多个 Agent 又在竞争有限的 KVCache 容量。Tokencake 从时间和空间两个维度同时优化:时间上,通过事件驱动将 KVCache 卸载到 CPU 并结合预测模型提前回传 GPU;空间上,通过 DAG 关键路径分析和共享池/保留池动态划分,实现精细化的内存管理。实测数据显示,延迟降低 47%,内存利用率提升 16.9%。这一调度策略的高效运转,高度依赖底层 KV 数据的快速搬运能力——Mooncake Transfer Engine 提供的零拷贝 RDMA 传输(60ms 级延迟,远低于 9000ms 的重计算开销),正是 Tokencake 实现实时卸载与回传的物理基础。
KVCOMM:跨 Agent 的 KVCache 无损复用
标准前缀缓存的核心假设是"相同前缀",但多 Agent 场景下每个 Agent 的前缀各不相同,缓存完全失效。KVCOMM(ICML'25)通过“锚点池”(Anchor Pool)存储缓存,利用 RoPE 反旋转/再旋转加偏移修正技术,实现了位置无关的 KVCache 复用——5 个 Agent 场景下 TTFT 从 430ms 降至 55ms,加速 7.82 倍,复用率达 70%-87.6%,输出质量完全无损。这里的"锚点池"本质上需要一个跨节点共享、高带宽、低延迟的 KV 存储层,而这恰恰是 Mooncake KVCache Store 的核心能力——多级缓存架构(VRAM→DRAM→SSD→Remote)配合全局共享池,让"一次计算、全局复用"从概念变为现实。
Helium:工作流感知的全局优化
Helium 的核心思路是把 Agent 工作流当作数据库的“查询计划”来优化。通过构建任务关系树(TRT)并实施主动缓存与 Cache-Aware 调度策略,Helium 在包含 19 个 Agent、88 个 LLM 算子的端到端工作流中实现了 1.56 倍的端到端加速。消融实验揭示了一个关键结论:“看到全局结构”比“优化单点缓存”重要 6 倍以上——移除工作流剪枝导致性能下降 23.35%,而移除 KVCache 优化仅下降 3.55%。Helium 的全局调度策略需要在工作流 DAG 的各节点间高效分发和复用 KV 数据,Mooncake 的跨机传输能力和拓扑感知路由,为这种工作流感知的缓存策略提供了坚实的底层通道。


生产验证:尾部延迟的革命
在与 OpenClaw 的多会话推理架构集成中,Mooncake 展示了其在生产环境中的价值。测试采用 Qwen3-14B 模型、2 个独立会话各 4 轮交互的配置,结果令人印象深刻:Turn 1 的 P95 延迟从 5295ms 降至 339ms,优化幅度达到 15.6 倍;Turn 2+ 的 P95 延迟从 4909ms 降至 770ms,优化 6.4 倍。
在演讲中特别强调了一个核心洞察:Mooncake 不改变最快请求的速度,而是改变最慢请求被允许的慢度。 系统将“通常快但偶尔很慢”的不稳定表现,转变为“一致平滑”的可预期性能。这对于企业级服务来说,往往比单纯提升中位数延迟更有价值。


从协议层到物理层:端到端的 Agent Memory 方案
最后,一幅完整的技术全景图被勾勒出来:上层是 Multi-Agent 协作协议(A2A/MCP),中间是记忆感知调度层(llm-d 前缀索引、Helium 工作流 DAG、Tokencake 空间-时间调度),底层是 Mooncake 作为物理记忆基础设施——Transfer Engine 实现跨节点零拷贝 KV 传输,KVCache Store 提供多级缓存,全局共享池保证"一次计算、全局复用"。再往下,是 CXL 记忆池化、RDMA、NVMe-of 等硬件加速技术的支撑。
Agent Memory 不应停留在向量数据库的层面——它需要下沉到物理推理基础设施,才能真正释放多智能体系统的潜力。这是 Mooncake 社区正在推动的方向,也是 Agentic 推理走向生产化的必经之路。
目前 Mooncake 已与 SGLang、vLLM、LMDeploy、LMCache、Dynamo 等主流推理引擎和中间件完成集成,覆盖推理、中间件和 RL 训练三大场景。作为龙蜥社区在大模型推理基础设施领域的重要开源项目,Mooncake 正在持续推动 Agentic 推理的性能边界,欢迎更多开发者加入共建。
Mooncake 项目 GitHub 已获 4000+ Star,欢迎 Star 与贡献:github.com/kvcache-ai/Mooncake
—— 完 ——