MuxWise:面向高Goodput LLM服务的GPU内Prefill-Decode复用技术

发布者：龙蜥社区（OpenAnolis） 2026-06-11 17:34:29 110

+关注

视频介绍

LLM推理中prefill（计算密集）与decode（访存密集）资源特性迥异。现有PD分离方案割裂KV cache池、难以适应流量波动；Chunked-prefill则在SLO达标率与GPU利用率间顾此失彼。MuxWise提出GPU内PD空分复用新范式：动态划分SM，让prefill与decode在同一GPU上并行执行、共享KV cache。系统包含三项核心技术：无气泡空分复用引擎、竞争感知延迟预测器、decode优先SLO感知调度。在主流GPU和任务上实现最高3倍goodput提升，代码已合并入SGLang主分支。

视频标签：

Linux

Anolis

龙蜥操作系统

龙蜥社区（OpenAnolis）是面向国际的 Linux 服务器操作系统开源根社区及创新平台，秉承“平等、开放、协作、创新”的原则，理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成，有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。

热门讨论

展开全部

+关注

龙蜥社区（OpenAnolis）

欢迎加入OpenAnolis龙蜥社区：钉钉群号 43205002258。

文章

问答

视频

MuxWise:面向高Goodput LLM服务的GPU内Prefill-Decode复用技术

龙蜥操作系统

热门文章

热门讨论