本次分享展示EPD在图像密集请求(4–8张/次)下的优化:1 QPS时比非分离部署延迟低约6–8倍,高QPS下吞吐增约2倍;解析EPD解耦架构如何以组件弹性扩展与异构部署避免Prefill节点成倍扩容。并聚焦SGLang面向Omni多模态的系统演进,阐述如何将LLM推理扩展到文本、图像、音频、视频多模态IO,以及Processor拆分、数据流与调度、多阶段推理协同等关键设计与实践。
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。