Mooncake：月之暗面Kimi联合清华等机构推出的大模型推理架构

2024-12-01 128

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心，通过分布式设计和资源优化，显著提升了大模型推理的吞吐量和效率，同时降低了算力开销。Mooncake在长上下文场景中表现出色，支持多种应用场景，如自然语言处理、内容推荐系统和搜索引擎等。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

架构设计：Mooncake采用以KVCache为中心的分布式架构，分离预填充和解码集群，优化资源利用。
性能提升：通过高效的KVCache缓存和资源优化，显著提升大模型推理的吞吐量和效率。
应用广泛：支持多种应用场景，包括自然语言处理、内容推荐系统和搜索引擎等。

正文（附运行示例）

Mooncake 是什么

公众号: 蚝油菜花 - Mooncake

Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心，通过分布式设计和资源优化，显著提升了大模型推理的吞吐量和效率，同时降低了算力开销。Mooncake在长上下文场景中表现出色，支持多种应用场景，如自然语言处理、内容推荐系统和搜索引擎等。

Mooncake的核心优势在于能显著提升大模型推理的吞吐量，降低算力开销，在保持服务延迟相关的服务级别目标（SLO）的同时，处理高负载场景。架构在长上下文场景中表现出色，能显著提高吞吐量，同时支持基于预测的早期拒绝策略，优化过载情况下的资源分配。

Mooncake 的主要功能

高效的大模型推理：通过分布式架构优化大模型的推理过程，特别是在处理长上下文数据时，显著提升推理吞吐量。
KVCache中心化设计：以KVCache为中心，实现高效的数据缓存和重用，减少对GPU资源的依赖，降低算力开销。
预填充与解码分离：将预填充（Prefill）和解码（Decode）阶段分开处理，资源可以针对不同阶段的计算特性进行优化。
资源优化：通过分离式设计，更有效地利用CPU、DRAM和SSD资源，提高资源利用率。
负载均衡：实现基于缓存负载的均衡策略，通过自动热点迁移方案，提升缓存命中率和系统负载的均衡。
过载管理：面对高负载情况，采用基于预测的早期拒绝策略，优化资源分配并减少无效计算。
高性能传输：基于RDMA技术，实现跨节点的高速KVCache传输，降低延迟。
标准化接口：为大模型时代打造新型高性能内存语义存储的标准接口，提供参考实现方案。
成本降低：通过优化推理过程和资源利用，降低大模型推理的成本，AI技术更加经济高效。

Mooncake 的技术原理

分布式架构：利用GPU集群中的CPU、DRAM和SSD资源，实现KVCache的分布式存储和传输，提高缓存容量和传输带宽，降低对单一GPU资源的依赖。
全局调度器（Conductor）：负责根据当前KVCache分布和工作负载情况调度请求，以及决定KVCache块的复制或交换，优化整体吞吐量和满足服务级别目标（SLO）。
分块流水线并行（Chunked Pipeline Parallelism）：对于长上下文请求，将输入标记分成多个块，并在不同的节点上并行处理，以减少延迟。
Layer-wise预填充：异步加载和存储KVCache，通过重叠传输和计算，减少VRAM占用。
缓存感知调度：调度算法考虑了KVCache的重用、预填充时间和实例负载的排队时间，以实现高效的请求调度。

如何运行 Mooncake

准备工作

为了安装和使用Mooncake，需要进行一些准备工作：

RDMA驱动和SDK（如Mellanox OFED）。
Linux-x86_64系统，需要gcc、g++（9.4+）和cmake（3.16+）。
Python（3.10或以上）。

此外，为了支持Mooncake Transfer Engine的更多功能，建议安装以下组件：

CUDA 12.1及以上版本，包括NVIDIA GPUDirect Storage支持。
Go 1.20+。
Rust工具链。

安装步骤

初始化源代码

git clone https://github.com/kvcache-ai/Mooncake.git
cd Mooncake

安装依赖项
```
bash dependencies.sh
```

编译Mooncake和示例

mkdir build
cd build
cmake .. # (可选) 指定构建选项，如-D
make -j

资源

项目官网：https://mimictalk.github.io/
GitHub 仓库：https://github.com/kvcache-ai/Mooncake
arXiv 技术论文：https://arxiv.org/pdf/2407.00079

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Mooncake：月之暗面Kimi联合清华等机构推出的大模型推理架构

🚀 快速阅读

正文（附运行示例）

Mooncake 是什么

Mooncake 的主要功能

Mooncake 的技术原理

如何运行 Mooncake

准备工作

安装步骤

资源

自然语言处理

热门文章

最新文章

相关课程

相关电子书

相关实验场景