Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

简介: Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。

34.png

近日,阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的 Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上,他详细介绍了阿里云在开源项目 Mooncake 大模型存储架构上的最新贡献,展示了开源项目 Mooncake 如何通过共享 KVCache 来以存换算,优化大模型推理效率,从而提升整体 AI 系统的效率和可靠性。现场嘉宾通过多维度的交流研讨,共同讨论了如何与行业合作伙伴共同构建高效 KVCache 解决方案的策略,推动开源大模型在更多实际应用场景中的落地,充分展现了开源人工智能技术在赋能传统产业转型升级中的创新动能与应用前景。

早在 2024 年 6 月,月之暗面 Kimi 和清华大学 MADSys 实验室联合推出了大模型推理架构 Mooncake,通过 KVCache 为中心设计,显著提升了 Kimi 智能助手的推理吞吐和成本效。同年 11 月,清华大学和阿里云、趋境科技、蚂蚁集团、9#AISoft 在内的多家企业和组织共同宣布开源 Mooncake 项目,共同推动推理实例共享和缓存池化层的标准化,实现高效分布式资源解耦提升大模型长上下文的推理性能,旨在建设高性能推理框架的开源生态,共同探索大模型资源池化技术在工业界的应用。

近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等实现了 PD 分离框架,极大提升了模型推理效率。在传输路径层面,Mooncake 项目为开源大模型推理框架提供了阿里云自研 eRDMA 网络的底层传输路径,以及兼容 eRDMA 的 GPUDirect,保证用户能够在云上快速实现 PD 分离框架的规模化部署。其中,Mooncake 项目通过和当前主流开源推理框架 SGLang 项目的合作集成开发,实现了基于 Mooncake Transfer Engine 的 PD 分离框架,通过 GDR 的零拷贝通信技术能够支持 EP+DP+TP+PD 分离的场景下对 Deepseek 模型的高效部署,TPOT 下降了将近 20%,能够将成本降低至 0.2$/1M Token由于 Mooncake 项目的易用性和完整功能设计,其被 Dynamo 的设计所参考,并在文档中专门致谢,近日也被集成到 Dynamo 生态中的传输框架 Nixl 中。

值得一提的是,Mooncake 与 LMCache 团队通过技术整合(结合 Mooncake 的 KVCache 存储架构与 LMCache 的缓存管理机制),显著优化了 LLM 服务性能,在缓存命中场景下,平均响应时间降低 69.1%、吞吐量提升 191%,验证了 KVCache 复用对分布式 LLM 服务效率的突破性提升。

35.png

36.png

(图/Mooncake 最新近况)


Mooncake 项目以高性能和灵活性为核心亮点,充分利用了 RDMA 和 GPUDirect 等高性能 IO 技术和特定推理系统解耦,进一步优化了面向单机多 RDMA 网卡场景的性能,实现了Transfer Engine、KVCache Store、LLM Integration、P2P Store 等功能特性。其中,Transfer Engine 拥有全链路零拷贝、多网卡池化的能力,最高可聚合 8*400Gbps 带宽,实现拓扑感知、故障容错、负载均衡、多协议支持等功能。相比其他传输协议,Transfer Engine 能够更充分地发挥高性能网卡的优势,相比 nccl 更加灵活,更好地支持动态拓朴、故障容错等功能。KVCache Store 充分利用了当前 GPU 集群中闲置的内存容量和互联带宽,省成本的同时降低响应延迟,同时使用了阿里自研的开源 RPC 框架 coro_rpc 来降低控制路径开销,其透明多级缓存的能力可以在未来进一步下沉到底层廉价存储。Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。

37.JPG

(图/Mooncake 整体架构


目前,Mooncake 项目在 Github 上拥有超过 3000 个 Star,吸引了二十余名活跃开发者,持续合入接入开源大模型框架项目的PR,被 Infoq、OSChina、新智元、机器之心、vLLM、LMSys 等媒体和组织高度关注和报道,现已在 SGLang 社区中成为广大开发者使用大模型推理框架的默认方案。Mooncake 项目的不同组件已经在阿里云、蚂蚁集团等大模型厂商实现内部部署,吸引了来自腾讯、美团、讯飞等企业开发者的关注。


未来,Mooncake 项目会持续性推出针对多 LLM 实例共享 KVCache 的 Mooncake Store v2 版本。Mooncake 也会支持更多推理框架,如 LMDeploy、TensorRT-LLM 等,持续性完善 Mooncake 的软件服务生态。同时,Mooncake 也会基于 LMCache 等推理服务插件来提升推理框架性能。阿里云将依托于开源大模型推理项目 Mooncake,与行业伙伴共建高效 KVCache 解决方案,共推开源大模型在更多实际应用场景中的落地应用。


Mooncake 项目开源地址

https://github.com/kvcache-ai/mooncake

相关文章
|
1月前
|
存储 缓存 开发者
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架
近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。
|
人工智能 缓存 调度
技术改变AI发展:RDMA能优化吗?GDR性能提升方案(GPU底层技术系列二)
随着人工智能(AI)的迅速发展,越来越多的应用需要巨大的GPU计算资源。GPUDirect RDMA 是 Kepler 级 GPU 和 CUDA 5.0 中引入的一项技术,可以让使用pcie标准的gpu和第三方设备进行直接的数据交换,而不涉及CPU。
137370 6
|
机器学习/深度学习 人工智能 API
使用TensorRT-LLM进行高性能推理
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。此SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。
624 0
|
1月前
|
Kubernetes 调度 开发者
qwen模型 MindIE PD分离部署问题定位
使用MindIE提供的PD分离特性部署qwen2-7B模型,使用k8s拉起容器,参考这个文档进行部署:https://www.hiascend.com/document/detail/zh/mindie/100/mindieservice/servicedev/mindie_service0060.html,1个Prefill,1个Decode。 最后一步测试推理请求的时候,出现报错:model instance has been finalized or not initialized。
147 1
|
3月前
|
消息中间件 存储 负载均衡
AI 推理场景的痛点和解决方案
一个典型的推理场景面临的问题可以概括为限流、负载均衡、异步化、数据管理、索引增强 5 个场景。通过云数据库 Tair 丰富的数据结构可以支撑这些场景,解决相关问题,本文我们会针对每个场景逐一说明。
708 148
AI 推理场景的痛点和解决方案
|
存储 弹性计算 人工智能
阿里云文件存储NAS通用型、极速型和文件存储CPFS有什么区别?
阿里云文件存储NAS极速型NAS低时延,适合企业级时延敏感型核心业务;文件存储CPFS拥有高吞吐和高IOPS,适合高性能计算业务;通用型NAS大容量、高性价比、弹性扩展,支持低频介质,适合通用类文件共享业务。
2077 0
阿里云文件存储NAS通用型、极速型和文件存储CPFS有什么区别?
|
机器学习/深度学习 网络协议 异构计算
浅析GPU通信技术(下)-GPUDirect RDMA
目录 浅析GPU通信技术(上)-GPUDirect P2P 浅析GPU通信技术(中)-NVLink 浅析GPU通信技术(下)-GPUDirect RDMA 1. 背景         前两篇文章我们介绍的GPUDirect P2P和NVLink技术可以大大提升GPU服务器单机的GPU通信性...
27670 0
|
1月前
|
人工智能 API 异构计算
AI 推理 | vLLM 快速部署指南
本文系统介绍了高性能 LLM 推理框架 vLLM 的部署实践,涵盖环境准备、GPU/CPU 后端配置、离线推理与在线推理部署等环节。最后通过实际测试,深入比较了两种后端在推理吞吐量和响应速度方面的性能差异
489 23
AI 推理 | vLLM 快速部署指南
|
3月前
|
存储 缓存 人工智能
阿里云Tair KVCache:打造以缓存为中心的大模型Token超级工厂
Tair KVCache 是阿里云推出的面向大语言模型推理场景的缓存加速服务,基于分布式内存池化和分级缓存体系,解决显存墙与带宽瓶颈问题。为万亿参数模型的高效推理提供技术保障,推动 AI 算力进化与规模化应用。
|
3月前
|
存储 人工智能 编解码
Deepseek 3FS解读与源码分析(2):网络通信模块分析
2025年2月28日,DeepSeek 正式开源其颠覆性文件系统Fire-Flyer 3FS(以下简称3FS),重新定义了分布式存储的性能边界。本文基于DeepSeek发表的技术报告与开源代码,深度解析 3FS 网络通信模块的核心设计及其对AI基础设施的革新意义。
Deepseek 3FS解读与源码分析(2):网络通信模块分析
下一篇
oss创建bucket