6 月 6 日,由沐曦股份联合龙蜥社区、SGLang 社区等举办的“沐‘蜥’芯生,开源共创——SGLang 技术交流 Meetup”在北京圆满举办,线上观看人次 65 万+。本次 Meetup 邀请了沐曦股份、阿里云、SGLang 社区、龙蜥社区等企业和社区的多位嘉宾,与现场 100 多位技术专家和高校学生,围绕 SGLang 开源生态演进、大模型推理性能优化与工程落地、异构算力适配等核心议题,展开了深入探讨与思维碰撞。
五大主题演讲:聚焦 SGLang 生态,覆盖推理全技术链路
今年以来,OpenClaw“龙虾”Agent智能体风靡全球,PD 分离、长上下文的 KV Cache 显存利用、多智能体推理成为了 AI 行业热议话题。本次 Meetup 活动共设置五场主题演讲与一场圆桌对话,从底层可观测性到上层多智能体推理架构,从社区前沿演进到落地工程实践,完整勾勒了 SGLang 推理生态的技术版图。
SGLang Core Maintainer(SGLang 社区核心维护者)童心源率先登台,带来了《SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统》主题演讲。童心源系统介绍了SGLang 开源推理框架的发展历史,并重点讲解了 SGLang 在 PD 分离、多模态模型与硬件支持、以 RL/post-training(强化学习/后训练)部署等关键技术场景的创新突破,以及其在开源社区协作的进展与最新性能优化路线图。
(图/童心源)
龙蜥社区 SGLang 项目开发者苏峰和龙蜥社区智算联盟委员常怀鑫则分享了题为《从全链路可观测到智能分析:AI 性能分析范式的演进与实践》的演讲。两位嘉宾在演讲中回顾了 SGLang Tracing 的可观测性建设历程,并结合具体案例探讨如何利用 AI Agent 实现 SGLang 框架的性能优化。
活动下半场,阿里云高级技术专家马腾上台发表了《记忆感知驱动:基于 Mooncake 的多智能体推理架构优化》主题演讲。马腾深入剖析了 Mooncake 如何以 KV Cache 显存为“物理工作记忆”载体,并通过 PD 分离架构与全局共享 KV Cache 显存池,实现多智能体场景“一次计算、全局共享”的记忆复用。
(图/马腾)
腾讯云高级工程师陈凯悦分享了《从社区到生产:基于 SGLang HiCache + Mooncake 的深度优化与企业级落地工程实践》,还原了如何将 HiCache 与 Mooncake 规模化部署到内部推理集群、以及落地企业客户环境中的具体实践。
(图/陈凯悦)
沐曦股份 SGLang 推理引擎核心开发者杨鑫压轴登场,带来《沐曦 GPU 对 SGLang 的深度适配与工程实践》主题演讲,详细介绍了 SGLang 在沐曦 GPU 上的适配流程、沐曦自研 MXMACA 软件栈、最新模型适配情况与性能优化实践。
(图/杨鑫)
针对硬核主题分享,现场观众踊跃提问,结合实际开发部署中遇到的具体问题,与嘉宾现场积极探讨各种可能的解决方案。
圆桌对话:异构算力下的推理效能革命
圆桌环节由沐曦 AI 研究院院长李兆石主持,童心源、常怀鑫、马腾、陈凯悦与沐曦股份 SGLang 项目核心开发者王志鹏五位技术专家共同参与,围绕“异构算力下的推理效能革命:SGLang 前沿优化与企业落地实践”展开讨论。针对百万长下文的 KV Cache 利用策略、AI 存储需求的趋势走向、AI 云端与本地部署的方案选择等热点话题,圆桌嘉宾分享了各自的洞察与思考。
本次 SGLang 技术交流 Meetup 是龙蜥社区生态伙伴在开源生态建设中的一次深度实践。未来,龙蜥社区将携手更多生态伙伴,在推理性能优化、模型适配广度、开发者工具链等维度持续深化协作,共同推进 AI 推理技术从“可用”走向“好用”。
最后,感谢本次活动各位嘉宾的精彩演讲,感谢沐曦股份与龙蜥社区工作人员:范佳璐、陈韵霏、蒙秋红、刘瑞刚、李彪、章津楠、杨仰、蔡佳丽、金美琴、倪俊雄、袁艳桃等人对本场活动的组织和支持;也特别感谢 InfoQ、51CTO、阿里云 AI 生产力 Live 等媒体的支持,使得本次 SGLang MeetUp 圆满举办。
PPT、视频回放获取
本次 MeetUp PPT、视频回放已上传龙蜥官网,欢迎点击查看:
PPT 下载链接:https://docs.openanolis.cn/document/detail/rpzigrnb
视频回放:https://openanolis.cn/video/#1644020499070544368
附活动现场精彩集锦:
—— 完 ——