开发者社区 > 龙蜥操作系统 > 视频 > 正文

从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进

发布者:龙蜥社区(OpenAnolis) 2026-03-17 18:34:09 6
视频介绍

本次分享展示EPD在图像密集请求(4–8张/次)下的优化:1 QPS时比非分离部署延迟低约6–8倍,高QPS下吞吐增约2倍;解析EPD解耦架构如何以组件弹性扩展与异构部署避免Prefill节点成倍扩容。并聚焦SGLang面向Omni多模态的系统演进,阐述如何将LLM推理扩展到文本、图像、音频、视频多模态IO,以及Processor拆分、数据流与调度、多阶段推理协同等关键设计与实践。


视频标签:

龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。

+关注
龙蜥社区(OpenAnolis)
欢迎加入OpenAnolis龙蜥社区:钉钉群号 43205002258。
文章
问答
视频
相关文章
更多