LLM推理中prefill(计算密集)与decode(访存密集)资源特性迥异。现有PD分离方案割裂KV cache池、难以适应流量波动;Chunked-prefill则在SLO达标率与GPU利用率间顾此失彼。MuxWise提出GPU内PD空分复用新范式:动态划分SM,让prefill与decode在同一GPU上并行执行、共享KV cache。系统包含三项核心技术:无气泡空分复用引擎、竞争感知延迟预测器、decode优先SLO感知调度。在主流GPU和任务上实现最高3倍goodput提升,代码已合并入SGLang主分支。
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。