共建大模型推理生态：Mooncake、KTransformers 与 SGLang

发布者：龙蜥社区（OpenAnolis） 2026-03-17 17:03:48 299

+关注

视频介绍

Mooncake 是一个以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构，通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术，助力 SGLang 实现了 KVCache 的高效跨节点传输与共享，显著提升了推理性能。KTransformers 是一个 CPU/GPU 混合的大模型异构推理框架，基于 AVX/AMX 指令集，实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel，支持了高效的原生精度推理；同时，使用专家级流水线进行流式预填充，通过 SGLang 的 GPU MoE Kernel 实现了 layerwise prefill 架构，大幅提升长上下文场景的吞吐与延迟表现。本次分享将聚焦于 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展，以及与 SGLang 的集成实践和应用效果。

视频标签：

人工智能

Linux

Anolis

龙蜥操作系统

龙蜥社区（OpenAnolis）是面向国际的 Linux 服务器操作系统开源根社区及创新平台，秉承“平等、开放、协作、创新”的原则，理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成，有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。

热门讨论

展开全部

+关注

龙蜥社区（OpenAnolis）

欢迎加入OpenAnolis龙蜥社区：钉钉群号 43205002258。

文章

问答

视频

共建大模型推理生态：Mooncake、KTransformers 与 SGLang

龙蜥操作系统

热门文章

热门讨论