Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

简介: 近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。

【阅读原文】戳:Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

image.png

 

近日,阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的 Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上,他详细介绍了阿里云在开源项目 Mooncake 大模型存储架构上的最新贡献,展示了开源项目 Mooncake 如何通过共享 KVCache 来以存换算,优化大模型推理效率,从而提升整体 AI 系统的效率和可靠性。现场嘉宾通过多维度的交流研讨,共同讨论了如何与行业合作伙伴共同构建高效 KVCache 解决方案的策略,推动开源大模型在更多实际应用场景中的落地,充分展现了开源人工智能技术在赋能传统产业转型升级中的创新动能与应用前景。

 

早在 2024 年 6 月,月之暗面 Kimi 和清华大学 MADSys 实验室联合推出了大模型推理架构 Mooncake,通过 KVCache 为中心设计,显著提升了 Kimi 智能助手的推理吞吐和成本效率。同年 11 月,清华大学和阿里云、趋境科技、蚂蚁集团、9#AISoft 在内的多家企业和组织共同宣布开源 Mooncake 项目,共同推动推理实例共享和缓存池化层的标准化,实现高效分布式资源解耦,提升大模型长上下文的推理性能,旨在建设高性能推理框架的开源生态,共同探索大模型资源池化技术在工业界的应用。

 

近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。在传输路径层面,Mooncake 项目为开源大模型推理框架提供了阿里云自研 eRDMA 网络的底层传输路径,以及兼容 eRDMA 的 GPUDirect,保证用户能够在云上快速实现 PD 分离框架的规模化部署。其中,Mooncake 项目通过和当前主流开源推理框架 SGLang 项目的合作集成开发,实现了基于 Mooncake Transfer Engine 的 PD 分离框架,通过 GDR 的零拷贝通信技术能够支持 EP+DP+TP+PD 分离的场景下对 Deepseek 模型的高效部署,TPOT 下降了将近 20%,能够将成本降低至 0.2$/1M Token。由于 Mooncake 项目的易用性和完整功能设计,其被 Dynamo 的设计所参考,并在文档中专门致谢,近日也被集成到 Dynamo 生态中的传输框架 Nixl 中。

 

值得一提的是,Mooncake 与 LMCache 团队通过技术整合(结合 Mooncake 的 KVCache 存储架构与 LMCache 的缓存管理机制),显著优化了 LLM 服务性能,在缓存命中场景下,平均响应时间降低 69.1%、吞吐量提升 191%,验证了 KVCache 复用对分布式 LLM 服务效率的突破性提升。

 

image.png image.png

图 | Mooncake 最新近况

 

 

Mooncake 项目以高性能和灵活性为核心亮点,充分利用了 RDMA 和 GPUDirect 等高性能 IO 技术和特定推理系统解耦,进一步优化了面向单机多 RDMA 网卡场景的性能,实现了Transfer Engine、KVCache Store、LLM Integration、P2P Store 等功能特性。其中,Transfer Engine 拥有全链路零拷贝、多网卡池化的能力,最高可聚合 8*400Gbps 带宽,实现拓扑感知、故障容错、负载均衡、多协议支持等功能。相比其他传输协议,Transfer Engine 能够更充分地发挥高性能网卡的优势,相比 nccl 更加灵活,更好地支持动态拓扑、故障容错等功能。KVCache Store 充分利用了当前 GPU 集群中闲置的内存容量和互联带宽,省成本的同时降低响应延迟,同时使用了阿里自研的开源 RPC 框架 coro_rpc 来降低控制路径开销,其透明多级缓存的能力可以在未来进一步下沉到底层廉价存储。Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。

 

image.png

图 | Mooncake 整体架构

 

 

目前,Mooncake 项目在 Github 上拥有超过 3000 个 Star,吸引了二十余名活跃开发者,持续合入接入开源大模型框架项目的PR,被 Infoq、OSChina、新智元、机器之心、vLLM、LMSys 等媒体和组织高度关注和报道,现已在 SGLang 社区中成为广大开发者使用大模型推理框架的默认方案。Mooncake 项目的不同组件已经在阿里云、蚂蚁集团等大模型厂商实现内部部署,吸引了来自腾讯、美团、讯飞等企业开发者的关注。

 

未来,Mooncake 项目会持续性推出针对多 LLM 实例共享 KVCache 的 Mooncake Store v2 版本。Mooncake 也会支持更多推理框架,如 LMDeploy、TensorRT-LLM 等,持续性完善 Mooncake 的软件服务生态。同时,Mooncake 也会基于 LMCache 等推理服务插件来提升推理框架性能。阿里云将依托于开源大模型推理项目 Mooncake,与行业伙伴共建高效 KVCache 解决方案,共推开源大模型在更多实际应用场景中的落地应用。

 

Mooncake 项目开源地址(文末点击阅读原文或复制链接至浏览器打开)

 

https://github.com/kvcache-ai/mooncake



我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~


相关文章
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。
性能最高提升7倍?探究大语言模型推理之缓存优化
本文探讨了大语言模型(LLM)推理缓存优化技术,重点分析了KV Cache、PagedAttention、Prefix Caching及LMCache等关键技术的演进与优化方向。文章介绍了主流推理框架如vLLM和SGLang在提升首Token延迟(TTFT)、平均Token生成时间(TPOT)和吞吐量方面的实现机制,并展望了未来缓存技术的发展趋势。
性能最高提升7倍?探究大语言模型推理之缓存优化
一篇就够:高性能推理引擎理论与实践 (TensorRT)
本文分享了关于 NVIDIA 推出的高性能的深度学习推理引擎 TensorRT 的背后理论知识和实践操作指南。
13190 9
一篇就够:高性能推理引擎理论与实践 (TensorRT)
RDMA优化整理(一)
简要的介绍了下RDMA的背景,并给出了一些RDMA编程优化技巧
3998 1
RDMA优化整理(一)
RAG 2.0 深入解读
本文从RAG 2.0 面临的主要挑战和部分关键技术来展开叙事,还包括了RAG的技术升级和关键技术等。
578 85
qwen模型 MindIE PD分离部署问题定位
使用MindIE提供的PD分离特性部署qwen2-7B模型,使用k8s拉起容器,参考这个文档进行部署:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html,1个Prefill,1个Decode。 最后一步测试推理请求的时候,出现报错:model instance has been finalized or not initialized。
225 1
ACK AI Profiling:从黑箱到透明的问题剖析
本文从一个通用的客户问题出发,描述了一个问题如何从前置排查到使用AI Profiling进行详细的排查,最后到问题定位与解决、业务执行过程的分析,从而展现一个从黑箱到透明的精细化的剖析过程。
MindIE PD分离部署Q&A
使用mindie进行PD分离部署
103 28
ACK Gateway with Inference Extension:优化多机分布式大模型推理服务实践
本文介绍了如何利用阿里云容器服务ACK推出的ACK Gateway with Inference Extension组件,在Kubernetes环境中为多机分布式部署的LLM推理服务提供智能路由和负载均衡能力。文章以部署和优化QwQ-32B模型为例,详细展示了从环境准备到性能测试的完整实践过程。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问