亮点抢先看!沐曦x龙蜥xSGLang 技术 MeetUp 即将在北京举办

简介: 6月6日,北京见。

当高性能推理引擎与国产算力深度交织,AI 落地还能塞进多少可能?6 月 6 日(本周六),沐曦股份携手龙蜥社区、 SGLang 社区等生态伙伴,在北京 · 融科资讯中心 B 座 B2-融荟举办“沐‘蜥’芯生,开源共创——SGLang 技术交流 Meetup”。本次活动聚焦 SGLang 开源生态、国产 GPU 深度适配、Mooncake 推理架构、Al 性能分析工具等社区共建议题,以技术分享与圆桌对话为载体,推动国产算力与开源系统协同演进。


活动现场,龙蜥社区还为参会开发者准备了丰厚的礼品,包括实用四件套、定制双肩包、环保帆布袋以及精美本笔套装等。期待大家在碰撞前沿技术的同时,也能满载社区的心意与惊喜而归!

本次 MeetUp 部分演讲亮点一览:

1、演讲主题:SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统

嘉宾:童心源,SGLang Core Maintainer

简介SGLang 是一个面向大语言模型与多模态模型的高性能开源推理框架,支持从单卡到大规模分布式集群的低延迟、高吞吐部署。本次分享将介绍 SGLang 的最新进展与未来路线图,涵盖高效运行时、模型与硬件支持、工业界应用、开源社区协作,以及其在 RL / post-training rollout 后端中的实践。希望通过本次分享,让大家了解 SGLang 如何支撑下一代开放、可扩展的大模型服务生态。


2、演讲主题从全链路可观测到智能分析:AI 性能分析范式的演进与实践

嘉宾:苏峰,龙蜥社区 SGLang 项目开发者;常怀鑫,龙蜥社区智算联盟委员

简介随着 AI Agent 加速落地,性能分析正经历从“人工专家驱动”向“Agent 自主智能”的深刻变革。过去,我们依托 SGLang Tracing 深入 Runtime 底层,通过可视化追踪精准捕获调度、KV Cache 及 GPU 执行指标,实现了推理黑盒的透明化。如今,结合 Agent 与 LLM 的强大能力,我们不仅能延续对底层指标的敏锐洞察,更能实现自动化的瓶颈定位与根因分析。本次分享将回顾 SGLang 可观测性建设历程,并重点探讨如何利用新一代 AI 技术重构性能分析工作流,为构建高效、稳定的大模型服务提供坚实支撑。


3、演讲主题:记忆感知驱动——基于 Mooncake 的多智能体推理架构优化

嘉宾:马腾,阿里云高级技术专家

简介:本次报告将围绕“记忆感知驱动的多智能体推理优化”展开,重点介绍以 KVCache 为中心的开源大模型服务框架——Mooncake。我们将深入探讨一种全新的视角:将大模型推理引擎中的 KVCache 视作智能体系统最核心的“物理工作记忆”载体。通过打破传统推理中计算与存储的强耦合,Mooncake 实现了 Prefill 与 Decode 的分离式架构(Disaggregated Architecture),并构建了全局共享的 KVCache 池。这种设计使得多智能体在频繁交互与协同工作时,能够通过跨节点的底层张量零拷贝与高效复用,实现记忆的“一次计算、全局共享”。


4、演讲主题:SGLang HiCache + Mooncake 的深度优化与企业级落地

嘉宾陈凯悦,腾讯云高级工程师

简介本次分享将围绕腾讯云异构计算团队基于 SGLang HiCache + Mooncake 的生产落地实践展开:在将社区能力规模化部署到内部推理集群与外部企业客户的过程中,我们与 SGLang、Mooncake 社区紧密协作,针对大规模并发启动、MTP 投机推理兼容、跨实例缓存共享,RadixTree节点分裂导致数据无法缓存等真实场景中暴露出的边界问题,与社区共同完成了多项稳定性与性能优化,并向上游贡献了多个 PR。落地后 Prefill 命中率从 61.9% 提升至 89.1%,TTFT 加速 2.6×,端到端延迟加速 4×,长上下文 Input 吞吐提升 152%,并在客户环境中稳定运行。


5、演讲主题:沐曦 GPU 对 SGLang 的深度适配与工程实践

嘉宾杨鑫,沐曦股份 SGL 推理引擎核心开发者

简介本次分享主要介绍 SGLang 在 Metax GPU 的适配流程和最新模型支持情况,SGLang 在 Metax GPU 的性能优化实践,以及 2026 年的 Roadmap。


6、圆桌会议:异构算力下的推理效能革命——SGLang 前沿优化与企业落地实践

主持人:李兆石,沐曦股份 AI 研究院院长

嘉宾:童心源,SGLang Core Maintainer

常怀鑫,龙蜥社区 SGLang 项目开发者

马腾,阿里云高级技术专家

王志鹏,沐曦股份 SGL 推理引擎核心开发者

陈凯悦,腾讯云高级工程师


更多详细议程见下方海报:

相关文章
|
3月前
|
存储 人工智能 安全
|
4月前
|
存储 人工智能 算法
|
4月前
|
缓存 达摩院 数据库
RISC-V 基金会 Data Center SIG 第六次会议圆满结束,推动数据中心缺口改进及引入
重点围绕“在 RISC-V 架构中引入持久化内存(Persistent Memory,PMem)相关支持”等的方向展开讨论。
|
22天前
|
人工智能 Anolis 开发者
CXL 接口库开源!龙蜥智算联盟 MeetUp 圆满举办,聚焦 AI Infra全栈创新落地
围绕 AI Infra 全栈技术趋势与创新实践,与现场开发者进行了深入的技术交流,共同勾勒下一代 AI Infra 的技术蓝图。
|
22天前
|
缓存 安全 小程序
Lua-LSM 系列二:从 CopyFail 到 Dirty Frag,看 732 字节的漏洞,用 79 字节关上
最近发生的真实安全漏洞场景,展示 Lua-LSM 如何在 79 字节内完成对内核提权漏洞的热缓解。
|
1月前
|
数据采集 运维 监控
Agent 烧钱如流水?Agentic OS (ANOLISA) 帮你逐笔看清 Token 账单
AgentSight 提供了能看清 Agent 全局状态和每笔 Token 去向的可视化面板。
|
1月前
|
缓存 人工智能 运维
SysOM Agent智能运维系列:Pod内存高告警,一次对话30秒定位根因
让内存诊断从"靠经验排查"变成"可解释、可复现、可执行"的工程化流程。
|
8天前
|
缓存 弹性计算 运维
运维不再需要“老师傅”——OS 运维 Skills 发布,欢迎体验
让任何运维 Agent 具备资深内核专家的诊断能力。

热门文章

最新文章