1 月 31 日,由 SGLang、阿里云、龙蜥社区主办的智算技术沙龙在北京成功举办,线上观看人次 18 万+。本次活动汇聚了阿里云、趋境科技、算秩未来、摩尔线程、沐曦股份、中兴通讯、浪潮信息,以及清华大学、香港科技大学等企业和高校的多位行业顶尖专家,深度解析了 KVCache 优化、PD/EPD/RL 分离式部署、5D 并行策略等核心技术突破,系统呈现国产 GPU 算力适配方案;通过 SGLang/Mooncake 团队的前沿技术分享、龙蜥社区智算联盟厂商的圆桌对话,与现场超 100 位参会嘉宾一起为大模型效能提升与自主算力平台落地提供创新思路。
会议伊始,龙蜥社区技术委员会主席杨勇做开场致辞。他强调了 AI 推理技术、AI 芯片优化以及 SGlang 社区正处于一个快速发展且充满机遇的阶段,并特别提到龙蜥社区智算联盟的成立,有力推动了操作系统与推理框架的生态建设。同时指出社区对训推一体化框架的投入显著增加,并积极贡献于开源项目。杨勇表示,实现最低 token 成本是一个贯穿整个技术链路的复杂课题,不仅关乎推理框架,还涉及算子库、并行库和操作系统等多个层面。为此,未来将重点围绕三大方向持续发力:一是提升生态对接中的部署效率,二是增强系统稳定性,三是深化性能分析与优化工作。
(图/杨勇)
SGLang 作为开源高性能 LLM/VLM 推理引擎,长期对 DeepSeek、Qwen、Kimi 等开源模型进行 day-0support,推进推理系统的架构技术进步,已被国内外众多顶级企业采用为生产环境推理部署引擎,全球范围内为超过 30 万块 GPU 提供支持。SGLang 社区核心开发者蔡尚铭分享了《SGLang 社区技术进化里程碑与未来路线规划》,他重点介绍了 SGLang 在 2025 年实现的重要技术演进:PD 分离大规模部署、KVCache 分层缓存、强化学习集成、面向投机解码的训练框架、面向超长上下文的分块流水线并行加速、Encoder-Prefill-Decode 分离等。同时,蔡尚铭也分享了 SGLang 下一季度的路线规划。
(图/蔡尚铭)
Mooncake 是以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构,通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术,助力 SGLang 高效实现了 PD 分离、EPD 分离、分布式 KVCache 共享、弹性大 EP、快速权重加载等能力,显著提升了推理性能。KTransformers 是 CPU/GPU 混合的大模型异构推理框架,基于 AVX/AMX 指令集,实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel,支持了高效的原生精度推理。趋境科技技术专家、Mooncake 核心贡献者杨珂联合清华大学在读研究生、KTransformers 核心开发者区庆亮分享了《共建大模型推理生态:Mooncake、KTransformers 与 SGLang》主题演讲。两位技术专家就 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展,以及与 SGLang 的集成实践和应用效果做了详细介绍。
(图/由左至右:杨珂、区庆亮)
Arks 是一个端到端的 Kubernetes 原生大语言模型应用管理框架,为云原生环境中的 LLM 推理工作负载提供健壮可扩展的基础设施,Arks 底层使用 rbg 作为 workload 部署管理框架,让开发者专注于推理本身而无需关注底层细节。算秩未来推理高级专家王子昂分享了《Arks 快速部署推理服务&SIMM 高性能 kv 缓存》。王子昂介绍,SiMM 是一款高性能分布式 KV 存储系统,兼具内存级访问速度与云盘级存储容量。它通过分布式架构实现高可用与高扩展,支持海量数据的低延迟读写,适用于缓存、状态存储与大规模在线服务等场景。同时,SiMM 提供开箱即用的部署与运维体验,无需复杂配置即可快速上线,帮助开发者在性能、成本与易用性之间取得最佳平衡。
(图/王子昂)
香港科技大学博士生、阿里巴巴 ROLL 团队学术实习生赵予珩带来了《ROLL:面向大规模 AgenticRL 的异步解耦与异构算力调度实践》主题分享。赵予珩介绍了阿里巴巴自研强化学习框架 ROLL 及其针对 AgenticRL 异构负载的深度优化方案,并重点解读了如何通过异构硬件亲和性调度、细粒度异步编排以及状态感知的按需弹性部署,攻克大规模场景下的通信与计算瓶颈。此外,赵予珩与现场嘉宾们共同探讨了 ROLL 与 Mooncake 存算分离架构结合的未来演进,进一步释放大规模 RL 后训练的潜力。目前,ROLL 已在三千卡集群、千亿参数 MoE 模型上实现了生产级的极致吞吐。
(图/赵予珩)
近期,强化学习的任务形态正从以 reasoningtask 为主,逐步演进为更复杂的 Agentictask。这类任务引入了 agentframework,更加复杂的数据生成流程与稳定性挑战,对 RL 训练框架提出了全新要求。清华大学博士生、Slime 强化学习训练框架的核心开发者谢承兴在会上分享了《一个高效可扩展的 Agentic RL 框架》。他聚焦 slime 框架,系统介绍了其针对 AgenticRL 场景所做的一系列关键优化设计,包括灵活的 rollout 机制、解耦的 agent 接入方式、高效的并行与同步策略等,全面展示 slime 如何显著提升 AgenticRL 训练的 scalability。
(图/谢承兴)
EPD 在图像密集型请求(如单次 4–8 张图)下的部署与优化实践,在 1 QPS 负载下相较非分离部署可将延迟降低约 6–8 倍,并在高 QPS 下实现约 2 倍吞吐提升。SGLang 贡献者刘斯宇和龙蜥社区跟踪诊断 SIG 维护者、SGLang 贡献者陆扬分享了《从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进》。刘斯宇解析了 EPD 解耦架构如何支持组件灵活扩展与异构部署,以更高性价比避免 Prefill 节点成倍扩容。陆扬聚焦 SGLang 面向 Omni 多模态模型的系统演进,分享了如何从现有 LLM 推理架构扩展到同时支持文本、图像、音频、视频等多模态输入输出,并与现场嘉宾共同讨论了 Processor 拆分、数据流与调度设计、多阶段推理协同等关键问题与社区实践方向。
(图/由左至右:刘斯宇、陆扬)
近期,SGLang 强化学习团队在提升强化学习(RL)训练稳定性、并缩小训练与推理误差方面取得了显著进展。SGLang 贡献者、阿里巴巴集团通义千问(Qwen)团队成员林骏荣做了题为《使用 SGLang 进行高效稳定的强化学习》的主题演讲。林骏荣带我们回顾了这些进展,并讨论了其背后的关键动机和解决方案。
(图/林骏荣)
阿里云智能集团技术专家、阿里云 Tair KVCache Manager 负责人王悉宇分享了《Agent 时代下的全局 KVCache 管理架构演进》。聚焦 Agent 场景下 KVCache 的存储需求,王悉宇重点梳理了Agent 带来的多种新挑战和 KVCache 全局管理架构为应对挑战所做的演进,最后介绍了阿里云已经开源的企业级全局 KVCache 管理系统—-TairKVCacheManager。该系统已实现对 Mooncake 的原生支持,为 Agent 时代的大模型推理提供稳定高效的 KVCache 存储支持。
(图/王悉宇)
此外,会上也举办了以“智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?”为主题的圆桌讨论,围绕大模型推理中的核心挑战——KV Cache 管理、异构算力调度、软硬件协同与超节点架构——展开深入探讨。本次圆桌由 Mooncake 核心贡献者马腾主持,邀请了龙蜥社区智算联盟主席宋卓、摩尔线程副总裁王华、沐曦股份研究院院长李兆石、中兴通讯 Al Infra 资深架构师孙洪峰、浪潮信息系统软件研发经理 Andy Cao、中国科学技术大学特任副研究员白有辉 6 位技术专家,与现场嘉宾讨论涵盖国产 GPU 在量化与存储访问上的创新潜力、CXL 与 RDMA 网络在跨节点 KV 传输的应用、稀疏 Attention 算法的工业落地路径,以及超节点环境下分层存储体系的演进趋势,共同展望中国 AI Infra 生态的未来发展。更多圆桌详情内容可点击阅读:产学研共话 AI Infra:龙蜥智算联盟探索大模型全场景落地新路径
(图/圆桌讨论)
最后,感谢各位嘉宾的精彩分享,也感谢马腾、蔡佳丽、金美琴、倪俊雄、袁艳桃、Mingyi Lu、Lingyan Hao、Liangsheng Yin、杨柯、屈鑫、郑环环等人对本场活动的组织和支持。
本次 MeetUp 回顾视频及 PPT 已上传至龙蜥官网,欢迎点击查看:
PPT 下载链接:https://docs.openanolis.cn/document/detail/rpzigrnb