从 EPD 到 SGLang-Omni：图像密集场景推理加速实践与下一代全模态推理架构演进

发布者：龙蜥社区（OpenAnolis） 2026-03-17 18:34:09 418

+关注

视频介绍

本次分享展示EPD在图像密集请求（4–8张/次）下的优化：1 QPS时比非分离部署延迟低约6–8倍，高QPS下吞吐增约2倍；解析EPD解耦架构如何以组件弹性扩展与异构部署避免Prefill节点成倍扩容。并聚焦SGLang面向Omni多模态的系统演进，阐述如何将LLM推理扩展到文本、图像、音频、视频多模态IO，以及Processor拆分、数据流与调度、多阶段推理协同等关键设计与实践。

视频标签：

人工智能

Linux

Anolis

龙蜥操作系统

龙蜥社区（OpenAnolis）是面向国际的 Linux 服务器操作系统开源根社区及创新平台，秉承“平等、开放、协作、创新”的原则，理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成，有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。

热门讨论

展开全部

+关注

龙蜥社区（OpenAnolis）

欢迎加入OpenAnolis龙蜥社区：钉钉群号 43205002258。

文章

问答

视频

从 EPD 到 SGLang-Omni：图像密集场景推理加速实践与下一代全模态推理架构演进

龙蜥操作系统

热门文章

热门讨论