沐“蜥”芯生,开源共创 | SGLang MeetUp 圆满结束,共同探索 AI 推理落地新路径

简介: 技术PPT已上传,欢迎下载查看。

6 月 6 日,由沐曦股份联合龙蜥社区、SGLang 社区等举办的“沐‘蜥’芯生,开源共创——SGLang 技术交流 Meetup在北京圆满举办,线上观看人次 65 万+。本次 Meetup 邀请了沐曦股份、阿里云、SGLang 社区、龙蜥社区等企业和社区的多位嘉宾,与现场 100 多位技术专家和高校学生,围绕 SGLang 开源生态演进、大模型推理性能优化与工程落地、异构算力适配等核心议题,展开了深入探讨与思维碰撞。

五大主题演讲:聚焦 SGLang 生态,覆盖推理全技术链路

今年以来,OpenClaw“龙虾”Agent智能体风靡全球,PD 分离、长上下文的 KV Cache 显存利用、多智能体推理成为了 AI 行业热议话题。本次 Meetup 活动共设置五场主题演讲与一场圆桌对话,从底层可观测性到上层多智能体推理架构,从社区前沿演进到落地工程实践,完整勾勒了 SGLang 推理生态的技术版图。


SGLang Core Maintainer(SGLang 社区核心维护者)童心源率先登台,带来了《SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统》主题演讲。童心源系统介绍了SGLang 开源推理框架的发展历史,并重点讲解了 SGLang 在 PD 分离、多模态模型与硬件支持、以 RL/post-training(强化学习/后训练)部署等关键技术场景的创新突破,以及其在开源社区协作的进展与最新性能优化路线图。

(图/童心源)


龙蜥社区 SGLang 项目开发者苏峰和龙蜥社区智算联盟委员常怀鑫则分享了题为《从全链路可观测到智能分析:AI 性能分析范式的演进与实践》的演讲。两位嘉宾在演讲中回顾了 SGLang Tracing 的可观测性建设历程,并结合具体案例探讨如何利用 AI Agent 实现 SGLang 框架的性能优化。

活动下半场,阿里云高级技术专家马腾上台发表了《记忆感知驱动:基于 Mooncake 的多智能体推理架构优化》主题演讲。马腾深入剖析了 Mooncake 如何以 KV Cache 显存为“物理工作记忆”载体,并通过 PD 分离架构与全局共享 KV Cache 显存池,实现多智能体场景“一次计算、全局共享”的记忆复用。

(图/马腾


腾讯云高级工程师陈凯悦分享了《从社区到生产:基于 SGLang HiCache + Mooncake 的深度优化与企业级落地工程实践》,还原了如何将 HiCache 与 Mooncake 规模化部署到内部推理集群、以及落地企业客户环境中的具体实践。

(图/陈凯悦)


沐曦股份 SGLang 推理引擎核心开发者杨鑫压轴登场,带来《沐曦 GPU 对 SGLang 的深度适配与工程实践》主题演讲,详细介绍了 SGLang 在沐曦 GPU 上的适配流程、沐曦自研 MXMACA 软件栈、最新模型适配情况与性能优化实践。

(图/杨鑫)


针对硬核主题分享,现场观众踊跃提问,结合实际开发部署中遇到的具体问题,与嘉宾现场积极探讨各种可能的解决方案。


圆桌对话:异构算力下的推理效能革命

圆桌环节由沐曦 AI 研究院院长李兆石主持,童心源、常怀鑫、马腾、陈凯悦与沐曦股份 SGLang 项目核心开发者王志鹏五位技术专家共同参与,围绕“异构算力下的推理效能革命:SGLang 前沿优化与企业落地实践”展开讨论。针对百万长下文的 KV Cache 利用策略、AI 存储需求的趋势走向、AI 云端与本地部署的方案选择等热点话题,圆桌嘉宾分享了各自的洞察与思考。

本次 SGLang 技术交流 Meetup 是龙蜥社区生态伙伴在开源生态建设中的一次深度实践。未来,龙蜥社区将携手更多生态伙伴,在推理性能优化、模型适配广度、开发者工具链等维度持续深化协作,共同推进 AI 推理技术从“可用”走向“好用”。


最后,感谢本次活动各位嘉宾的精彩演讲,感谢沐曦股份与龙蜥社区工作人员:范佳璐、陈韵霏、蒙秋红、刘瑞刚、李彪、章津楠、杨仰、蔡佳丽、金美琴、倪俊雄、袁艳桃等人对本场活动的组织和支持;也特别感谢 InfoQ、51CTO、阿里云 AI 生产力 Live 等媒体的支持,使得本次 SGLang MeetUp 圆满举办。


PPT、视频回放获取

本次 MeetUp  PPT、视频回放已上传龙蜥官网,欢迎点击查看:

PPT 下载链接:https://docs.openanolis.cn/document/detail/rpzigrnb

视频回放:https://openanolis.cn/video/#1644020499070544368


附活动现场精彩集锦:

—— 完 ——


相关文章
|
1天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7588 32
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
1天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
647 144
|
1天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
|
1天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1265 2
|
1天前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1172 1
|
1天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1317 4
|
1天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
402 4
|
1天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
355 1
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
1天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
1天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
487 1