沐“蜥”芯生,开源共创 | SGLang MeetUp 圆满结束,共同探索 AI 推理落地新路径

简介: 技术PPT已上传,欢迎下载查看。

6 月 6 日,由沐曦股份联合龙蜥社区、SGLang 社区等举办的“沐‘蜥’芯生,开源共创——SGLang 技术交流 Meetup在北京圆满举办,线上观看人次 65 万+。本次 Meetup 邀请了沐曦股份、阿里云、SGLang 社区、龙蜥社区等企业和社区的多位嘉宾,与现场 100 多位技术专家和高校学生,围绕 SGLang 开源生态演进、大模型推理性能优化与工程落地、异构算力适配等核心议题,展开了深入探讨与思维碰撞。

五大主题演讲:聚焦 SGLang 生态,覆盖推理全技术链路

今年以来,OpenClaw“龙虾”Agent智能体风靡全球,PD 分离、长上下文的 KV Cache 显存利用、多智能体推理成为了 AI 行业热议话题。本次 Meetup 活动共设置五场主题演讲与一场圆桌对话,从底层可观测性到上层多智能体推理架构,从社区前沿演进到落地工程实践,完整勾勒了 SGLang 推理生态的技术版图。


SGLang Core Maintainer(SGLang 社区核心维护者)童心源率先登台,带来了《SGLang Roadmap:面向大模型与多模态模型的高性能开源推理系统》主题演讲。童心源系统介绍了SGLang 开源推理框架的发展历史,并重点讲解了 SGLang 在 PD 分离、多模态模型与硬件支持、以 RL/post-training(强化学习/后训练)部署等关键技术场景的创新突破,以及其在开源社区协作的进展与最新性能优化路线图。

(图/童心源)


龙蜥社区 SGLang 项目开发者苏峰和龙蜥社区智算联盟委员常怀鑫则分享了题为《从全链路可观测到智能分析:AI 性能分析范式的演进与实践》的演讲。两位嘉宾在演讲中回顾了 SGLang Tracing 的可观测性建设历程,并结合具体案例探讨如何利用 AI Agent 实现 SGLang 框架的性能优化。

活动下半场,阿里云高级技术专家马腾上台发表了《记忆感知驱动:基于 Mooncake 的多智能体推理架构优化》主题演讲。马腾深入剖析了 Mooncake 如何以 KV Cache 显存为“物理工作记忆”载体,并通过 PD 分离架构与全局共享 KV Cache 显存池,实现多智能体场景“一次计算、全局共享”的记忆复用。

(图/马腾


腾讯云高级工程师陈凯悦分享了《从社区到生产:基于 SGLang HiCache + Mooncake 的深度优化与企业级落地工程实践》,还原了如何将 HiCache 与 Mooncake 规模化部署到内部推理集群、以及落地企业客户环境中的具体实践。

(图/陈凯悦)


沐曦股份 SGLang 推理引擎核心开发者杨鑫压轴登场,带来《沐曦 GPU 对 SGLang 的深度适配与工程实践》主题演讲,详细介绍了 SGLang 在沐曦 GPU 上的适配流程、沐曦自研 MXMACA 软件栈、最新模型适配情况与性能优化实践。

(图/杨鑫)


针对硬核主题分享,现场观众踊跃提问,结合实际开发部署中遇到的具体问题,与嘉宾现场积极探讨各种可能的解决方案。


圆桌对话:异构算力下的推理效能革命

圆桌环节由沐曦 AI 研究院院长李兆石主持,童心源、常怀鑫、马腾、陈凯悦与沐曦股份 SGLang 项目核心开发者王志鹏五位技术专家共同参与,围绕“异构算力下的推理效能革命:SGLang 前沿优化与企业落地实践”展开讨论。针对百万长下文的 KV Cache 利用策略、AI 存储需求的趋势走向、AI 云端与本地部署的方案选择等热点话题,圆桌嘉宾分享了各自的洞察与思考。

本次 SGLang 技术交流 Meetup 是龙蜥社区生态伙伴在开源生态建设中的一次深度实践。未来,龙蜥社区将携手更多生态伙伴,在推理性能优化、模型适配广度、开发者工具链等维度持续深化协作,共同推进 AI 推理技术从“可用”走向“好用”。


最后,感谢本次活动各位嘉宾的精彩演讲,感谢沐曦股份与龙蜥社区工作人员:范佳璐、陈韵霏、蒙秋红、刘瑞刚、李彪、章津楠、杨仰、蔡佳丽、金美琴、倪俊雄、袁艳桃等人对本场活动的组织和支持;也特别感谢 InfoQ、51CTO、阿里云 AI 生产力 Live 等媒体的支持,使得本次 SGLang MeetUp 圆满举办。


PPT、视频回放获取

本次 MeetUp  PPT、视频回放已上传龙蜥官网,欢迎点击查看:

PPT 下载链接:https://docs.openanolis.cn/document/detail/rpzigrnb

视频回放:https://openanolis.cn/video/#1644020499070544368


附活动现场精彩集锦:

—— 完 ——


相关文章
|
JSON 自然语言处理 Java
【AgentScope Java新手村系列】(4)结构化输出
结构化输出 — JSON Schema 约束 LLM 输出格式,直接反序列化为 Java POJO,打通文本到对象的转换。
203 0
|
20天前
|
人工智能 前端开发 数据挖掘
全链路实战:依托Codex完成PPT、数据分析、网页与APP一站式AI开发教程
在AI技术飞速迭代的当下,代码生成早已不是AI工具的单一能力边界。OpenAI旗下的Codex经过持续升级,如今已经成长为一款综合性智能生产力平台,除了经典的代码编写能力外,还支持插件调用、电脑远程操控、数据分析、多媒体制作、全品类应用开发等多元功能。本文将结合完整实操流程,一步步演示如何使用Codex完成PPT制作、体育赛事数据分析预测、网页开发以及移动端APP开发四大核心场景,全程记录操作指令、执行过程、代码实现以及问题优化方案,直观展现AI如何重塑传统工作与开发流程,同时剖析这套全链路AI工作模式的优势与现存局限。整套流程无需深厚的专业功底,普通办公人员、初级开发者都可以参考落地。
398 1
|
20天前
|
存储 人工智能 自然语言处理
Skills实战:从0到1封装一个“登录鉴权”Skill,拿来即用
本文直击AI Agent落地痛点——登录鉴权失效、状态丢失、提示词不可靠。提出以“Skill”替代传统提示词工程:将动态认证逻辑(如Token获取/刷新/存储)封装为可复用、带状态管理的代码模块,实现跨会话稳定调用。实战拆解Skill四要素,揭示其如何让AI“一次登录,全程无忧”。
|
20天前
|
人工智能 缓存 监控
构建企业级 AI Agent 工程化实践:从原型到生产环境的跨越
本文深入探讨企业级AI Agent从原型到生产的工程化实践,直面LLM概率性与业务确定性的根本矛盾,提出“LLM负责感知推理、代码保障逻辑执行”的混合架构。系统阐述可观测性、安全护栏、性能优化、数据管理四大工程支柱,并结合IT运维、金融合规等实战场景,提供可落地的LLMOps方法论。
|
18天前
|
运维 Serverless API
零门槛部署 DeepSeek 模型方案实测:4种方式全体验与避坑指南
DeepSeek-R1 作为当前热门的推理模型,在数学、代码和自然语言等复杂任务上表现出色。阿里云推出的"零门槛、轻松部署您的专属 DeepSeek 模型"解决方案,提供了 4 种不同维度的使用方式:百炼 API 调用、函数计算 Serverless 部署、容器服务集群部署和 GPU 云服务器手动部署。本文从实际体验出发,逐一走通 4 条路径,记录部署过程中的踩坑经历、文档准确性和成本分析,最终给出不同场景下的最佳选择推荐。
|
19天前
|
缓存 人工智能 自然语言处理
阿里云百炼通义千问Qwen3.6-Flash完整实操指南:轻量化旗舰功能特性、落地优势与分层优惠订阅方案详解
当前AI应用落地场景分化愈发明显,除复杂智能体、百万字长文档、全栈大型工程开发等高门槛业务外,大量企业存在高频轻量问答、实时客服对话、短文本批量生成、简单数据提取、前端实时交互等标准化轻量化需求。这类场景单日调用频次可达数万乃至数十万次,对接口响应延迟、单轮调用成本、并发承载能力有极高要求,若选用高规格旗舰模型会造成算力预算严重浪费,而普通基础轻量化模型又存在逻辑推理弱、工具调用不稳定、短文本输出质量差等短板。
283 4
|
20天前
|
人工智能 运维 数据安全/隐私保护
2026年阿里云通义千问Qwen3.7-Plus全解析:功能、优势与618订阅方案
随着人工智能技术全面融入办公、创作、研发、教育等各行各业,大模型已经从小众技术产品转变为大众日常工具。不同定位的大模型有着明确的使用分层:旗舰模型综合性能顶尖,但调用成本高昂,仅适合核心复杂业务;轻量化模型价格低廉,却难以应对中等难度的推理、创作与代码任务。在这样的市场格局下,**通义千问Qwen3.7-Plus**作为阿里云通义千问3.7系列的中端主力模型应运而生。该模型依托阿里云百炼MaaS平台对外提供服务,兼顾综合性能与使用成本,平衡了能力、稳定性与性价比,成为个人用户、自由职业者、小型团队以及中小微企业的主流选择。2026年618大促期间,阿里云百炼针对Qwen3.7-Plus推出按量
642 1
|
21天前
|
人工智能 弹性计算 开发者
2026年阿里云618大促云服务器选购指南:活动价格与省钱攻略
2026阿里云618大促开启!主题“AI加速季,智惠生产力”,轻量服务器低至38元/年,ECS实例99元起,叠加满减券至高减1728元。涵盖新人秒杀、企业专享、AI组合套餐,附选型指南与避坑攻略,助力大家低成本高效上云!
298 3
|
20天前
|
人工智能 缓存 JavaScript
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
本文系统梳理2026年构建AI Agent的7层开源工具栈,围绕四大核心约束——延迟预算、审计追踪、模型可移植性与语言栈(Python/TS),对比LangGraph、CrewAI、Mem0、Zep、OpenHands、Langfuse、vLLM等主流方案的适用场景、替换成本及开源性质,助力团队按需选型,避免“一刀切”组合陷阱。
248 1
2026 年开源 Agent 工具包选型指南:延迟、审计、可移植性与语言栈
|
21天前
|
缓存 弹性计算 运维
运维不再需要“老师傅”——OS 运维 Skills 发布,欢迎体验
让任何运维 Agent 具备资深内核专家的诊断能力。

热门文章

最新文章