当 AI 从“对话”走向“协作”,谁来管理百万级 Token 的工作记忆?

简介: 系统性地拆解了多智能体时代面临的内存与延迟挑战,并深入展示了 Mooncake 作为 KVCache 数据基座的分离架构设计与大规模生产实践。

编者按当大模型从简单的单轮对话,演进到工具调用、再到多个 Agent 协同完成复杂任务时,一个被大多数人忽视的问题正在悄然成为性能瓶颈的核心矛盾:每一次 LLM 调用,都在重复计算那些已经算过的上下文。近日,在上海举办的 Agentic AICon 智能体应用与架构工程大会上,来自龙蜥社区的开发者带来了一场题为《面向多智能体的 KVCache 优化》的技术分享。他从 Agentic 推理的底层视角出发,系统性地拆解了多智能体时代面临的内存与延迟挑战,并深入展示了 Mooncake 作为 KVCache 数据基座的分离架构设计与大规模生产实践。

多 Agent 时代,“工作记忆”正在爆炸

我们今天看到的 Agent 系统,早已不是“你问我答的简单对话。一个典型的多 Agent 工作流中,每次 LLM 调用需要携带的上下文包括:系统提示词、工具定义与函数签名、多轮对话历史,以及上下游 Agent 之间的中间状态传递。这些共同构成了 Agent 的“工作记忆

一个直观的数字:10 个 Agent 协作 20 轮交互,工作记忆可以轻松达到百万级 Token。

问题在于,当前的推理引擎把每次调用都当作独立请求处理——完整的上下文被反复 Prefill,相同的前缀被一遍遍重新计算。带来的直接后果是:显存碎片化加剧,首 Token 延迟(TTFT)急剧恶化。在某些场景下,无 KVCache 持久化时 TTFT 劣化高达 136 倍;MCP 动态加载工具导致缓存命中率从 85% 骤降至 0%;即便是 JSON 序列化的字段顺序差异,也能让 TTFT 变慢 65%。

这次演讲中提出了一个颇具洞察力的类比:KVCache 之于 Agentic 系统,正如数据库的 Buffer Pool 之于传统数据库。 30 年前,数据库从通用操作系统中独立出来,开始自己管理内存;今天,Agentic 推理正在从通用 LLM Serving 中独立出来,走向自主管理 KVCache 的道路。

Agentic 推理 vs 传统推理:一场根本性的范式转变

传统推理工作负载以单轮或少量多轮交互为主,输入输出比大约在 10:1,工作流呈线性拓扑,KVCache 在请求结束后即可释放。而 Agentic 推理的特征是数十轮的 LLM-Tool 循环调用,输入输出比可达 100:1 以上,工作流呈现 DAG 甚至动态图结构,KVCache 需要跨工具调用持久化,并在多个 Agent 之间共享。

这意味着,针对传统推理设计的缓存策略在 Agentic 场景下几乎全面失效。我们需要一套全新的、从基础设施层到应用协议层的分层优化技术栈。

Mooncake:为分离架构而生的 KVCache 数据基座

Mooncake 是这套技术栈的基础设施核心。作为一个面向大模型推理的分离架构项目,Mooncake 提供了 Transfer Engine(全链路零拷贝、多网卡池化,最高支持 8×400Gbps 聚合带宽)、KVCache Store(透明多级缓存,覆盖 VRAM/DRAM/SSD/Remote)以及 Elastic EP 等关键能力。目前 Mooncake 在 GitHub 上已获得超过 4000 Star,并集成了 12+ 生态项目,覆盖推理、中间件和强化学习训练三大场景。

在分离架构方面,Mooncake 支撑了多种 Disaggregation 模式:Prefill-Decode 分离(PD Disaggregation)、弹性 PD 分离(EPD)、强化学习分离(RL Disaggregation)以及 Attention-Free 分离(AF Disaggregation)。这些模式的共同目标是将不同阶段的计算资源独立扩展,最大化资源利用效率。

在与 SGLang 推理引擎的深度集成中,Mooncake Store 作为 L3 级缓存,实现了跨机 KV 共享与持久化,支持“无限长上下文(Infinite Context),并通过流水线掩盖和零拷贝 RDMA 传输,将 GPU 计算与 KV 数据传输重叠执行,有效隐藏了 I/O 延迟。实测数据显示,引入 L3 GPU 缓存后,输入 Token 吞吐量从 6576 token/s 提升至 15022 token/s,请求吞吐量从 0.61 req/s 提升至 1.39 req/s,均实现超过 2 倍的性能跃升。

前沿探索:Agent 专属的 Cache 优化策略与 Mooncake 底座

如果说 Mooncake 构建了 KVCache 管理的“高速公路网,那么上层涌现的各类 Agent 专属优化策略,就是在这条高速公路上跑起来的"智能调度系统"。

近年来,学术界和开源社区围绕 Agent 场景催生了一批前沿的 KVCache 优化研究——它们分别从调度策略、缓存复用、工作流感知等不同角度切入,试图解决多 Agent 协作中的记忆瓶颈。而分享中着重指出,这些策略要真正在生产环境中落地,离不开一个高性能、低延迟的底层 KV 数据基座。Mooncake 正是为此而生的基础设施——无论是空间-时间联合调度、跨 Agent 缓存复用,还是全局工作流优化,它们所需的跨节点 KV 传输、多级缓存持久化、共享内存池,都可以由 Mooncake 提供开箱即用的支撑。

Tokencake:空间-时间联合调度

Agent 在等待工具返回时 GPU 处于空转状态,而多个 Agent 又在竞争有限的 KVCache 容量。Tokencake 从时间和空间两个维度同时优化:时间上,通过事件驱动将 KVCache 卸载到 CPU 并结合预测模型提前回传 GPU;空间上,通过 DAG 关键路径分析和共享池/保留池动态划分,实现精细化的内存管理。实测数据显示,延迟降低 47%,内存利用率提升 16.9%。这一调度策略的高效运转,高度依赖底层 KV 数据的快速搬运能力——Mooncake Transfer Engine 提供的零拷贝 RDMA 传输(60ms 级延迟,远低于 9000ms 的重计算开销),正是 Tokencake 实现实时卸载与回传的物理基础。

KVCOMM:跨 Agent 的 KVCache 无损复用

标准前缀缓存的核心假设是"相同前缀",但多 Agent 场景下每个 Agent 的前缀各不相同,缓存完全失效。KVCOMM(ICML'25)通过“锚点池”(Anchor Pool)存储缓存,利用 RoPE 反旋转/再旋转加偏移修正技术,实现了位置无关的 KVCache 复用——5 个 Agent 场景下 TTFT 从 430ms 降至 55ms,加速 7.82 倍,复用率达 70%-87.6%,输出质量完全无损。这里的"锚点池"本质上需要一个跨节点共享、高带宽、低延迟的 KV 存储层,而这恰恰是 Mooncake KVCache Store 的核心能力——多级缓存架构(VRAM→DRAM→SSD→Remote)配合全局共享池,让"一次计算、全局复用"从概念变为现实。

Helium:工作流感知的全局优化

Helium 的核心思路是把 Agent 工作流当作数据库的“查询计划”来优化。通过构建任务关系树(TRT)并实施主动缓存与 Cache-Aware 调度策略,Helium 在包含 19 个 Agent、88 个 LLM 算子的端到端工作流中实现了 1.56 倍的端到端加速。消融实验揭示了一个关键结论:“看到全局结构”比“优化单点缓存”重要 6 倍以上——移除工作流剪枝导致性能下降 23.35%,而移除 KVCache 优化仅下降 3.55%。Helium 的全局调度策略需要在工作流 DAG 的各节点间高效分发和复用 KV 数据,Mooncake 的跨机传输能力和拓扑感知路由,为这种工作流感知的缓存策略提供了坚实的底层通道。

生产验证:尾部延迟的革命

在与 OpenClaw 的多会话推理架构集成中,Mooncake 展示了其在生产环境中的价值。测试采用 Qwen3-14B 模型、2 个独立会话各 4 轮交互的配置,结果令人印象深刻:Turn 1 的 P95 延迟从 5295ms 降至 339ms,优化幅度达到 15.6 倍;Turn 2+ 的 P95 延迟从 4909ms 降至 770ms,优化 6.4 倍。

在演讲中特别强调了一个核心洞察:Mooncake 不改变最快请求的速度,而是改变最慢请求被允许的慢度。 系统将“通常快但偶尔很慢”的不稳定表现,转变为“一致平滑”的可预期性能。这对于企业级服务来说,往往比单纯提升中位数延迟更有价值。

从协议层到物理层:端到端的 Agent Memory 方案

最后,一幅完整的技术全景图被勾勒出来:上层是 Multi-Agent 协作协议(A2A/MCP),中间是记忆感知调度层(llm-d 前缀索引、Helium 工作流 DAG、Tokencake 空间-时间调度),底层是 Mooncake 作为物理记忆基础设施——Transfer Engine 实现跨节点零拷贝 KV 传输,KVCache Store 提供多级缓存,全局共享池保证"一次计算、全局复用"。再往下,是 CXL 记忆池化、RDMA、NVMe-of 等硬件加速技术的支撑。

Agent Memory 不应停留在向量数据库的层面——它需要下沉到物理推理基础设施,才能真正释放多智能体系统的潜力。这是 Mooncake 社区正在推动的方向,也是 Agentic 推理走向生产化的必经之路。

目前 Mooncake 已与 SGLang、vLLM、LMDeploy、LMCache、Dynamo 等主流推理引擎和中间件完成集成,覆盖推理、中间件和 RL 训练三大场景。作为龙蜥社区在大模型推理基础设施领域的重要开源项目,Mooncake 正在持续推动 Agentic 推理的性能边界,欢迎更多开发者加入共建。

Mooncake 项目 GitHub 已获 4000+ Star,欢迎 Star 与贡献:github.com/kvcache-ai/Mooncake

—— 完 ——

相关文章
|
5天前
|
人工智能 定位技术 SEO
我学 GEO 第 15 天:终于知道AI GEO该如何做?
我是暴走的莉莉酱,边旅行边研究AI GEO的数字游民。专注普通人如何提升“AI可见度”——让AI在回答用户问题时准确识别、理解并推荐你。不讲玄学,只做可测、可调、可持续的GEO实践。
421 125
|
8天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
712 5
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
5天前
|
缓存 人工智能 运维
阿里云618百炼大模型Qwen3.7-Max功能、免费试用、订阅计费、配置接入详解
Qwen3.7-MAX是阿里云百炼平台推出的通义千问3.7系列旗舰大语言模型,专为智能体时代复杂任务打造,依托阿里云全域算力与自研技术,在逻辑推理、长文本处理、代码工程、长周期自主执行等领域达到行业顶尖水平。2026年618期间,该模型推出多重免费试用权益、按量计费5折、订阅套餐优惠等专属福利,覆盖个人开发者、团队与企业全场景需求,以下从核心功能、免费试用、订阅计费、配置接入四方面展开详细解析。
414 123
|
4天前
|
人工智能 自然语言处理 API
阿里云Token Plan团队版解析:功能、三档套餐与省钱订阅指南
阿里云百炼平台推出的Token Plan团队版,是面向企业与团队的AI大模型订阅服务,以Credits为统一计量单位,整合文本与图像生成模型,提供团队管理、数据安全、多工具兼容等核心能力,解决团队零散订阅AI服务的管理混乱、成本失控、数据安全等痛点。本文将从核心定位、套餐详情、计费规则、团队管理、工具兼容、便宜订阅技巧等方面,全面解析Token Plan团队版,帮助企业与团队高效、低成本地使用AI服务。
308 108
|
5天前
|
存储 人工智能 数据可视化
别再手动复制 Skill 了:多 Agent 时代的 Skill 管理方案
多 Agent 场景下 Skill 的统一管理与同步。
256 123
|
19天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
12天前
|
缓存 人工智能 运维
GLM 5.2自托管全流程实战:硬件选型、vLLM/SGLang部署与成本盈亏测算
2026年智谱发布GLM 5.2超大混合专家模型,区别于以往仅开放API的闭源大模型,该模型权重以MIT开源协议对外发布,企业与开发者可完整下载、本地审计、私有化部署,实现数据不出环境、自定义微调、自主调度推理资源。GLM 5.2拥有753B总参数,原生支持百万级上下文窗口,在代码生成、长文档推理、数学逻辑等多项基准测试中对标国际顶尖商用模型,是首款可完整自托管的前沿代码向大模型。
937 0
|
13天前
|
Linux 程序员 数据格式
【2026最新】Notepad++下载、安装和使用一篇搞定(附中文版安装包)
Notepad++ 是一款免费开源、轻量高效的 Windows 文本编辑器,支持 C/Python/HTML 等 80+ 语言语法高亮、代码折叠、正则替换、编码转换及插件扩展,专为程序员与文本处理用户打造,完美替代系统记事本。(239字)

热门文章

最新文章