线上观看人次18万+!智算技术沙龙圆满落幕(附 PPT 下载)

简介: 与现场超 100 位参会嘉宾一起为大模型效能提升与自主算力平台落地提供创新思路。

1 月 31 日,由 SGLang、阿里云、龙蜥社区主办的智算技术沙龙在北京成功举办,线上观看人次 18 万+。本次活动汇聚了阿里云、趋境科技、算秩未来、摩尔线程、沐曦股份、中兴通讯、浪潮信息,以及清华大学、香港科技大学等企业和高校的多位行业顶尖专家,深度解析了 KVCache 优化、PD/EPD/RL 分离式部署、5D 并行策略等核心技术突破,系统呈现国产 GPU 算力适配方案;通过 SGLang/Mooncake 团队的前沿技术分享、龙蜥社区智算联盟厂商的圆桌对话,与现场超 100 位参会嘉宾一起为大模型效能提升与自主算力平台落地提供创新思路。

压缩.JPG


会议伊始,龙蜥社区技术委员会主席杨勇做开场致辞。他强调了 AI 推理技术、AI 芯片优化以及 SGlang 社区正处于一个快速发展且充满机遇的阶段,并特别提到龙蜥社区智算联盟的成立,有力推动了操作系统与推理框架的生态建设。同时指出社区对训推一体化框架的投入显著增加,并积极贡献于开源项目。杨勇表示,实现最低 token 成本是一个贯穿整个技术链路的复杂课题,不仅关乎推理框架,还涉及算子库、并行库和操作系统等多个层面。为此,未来将重点围绕三大方向持续发力:一是提升生态对接中的部署效率,二是增强系统稳定性,三是深化性能分析与优化工作。


(图/杨勇)


SGLang 作为开源高性能 LLM/VLM 推理引擎,长期对 DeepSeek、Qwen、Kimi 等开源模型进行 day-0support,推进推理系统的架构技术进步,已被国内外众多顶级企业采用为生产环境推理部署引擎,全球范围内为超过 30 万块 GPU 提供支持。SGLang 社区核心开发者蔡尚铭分享了《SGLang 社区技术进化里程碑与未来路线规划》他重点介绍了 SGLang 在 2025 年实现的重要技术演进:PD 分离大规模部署、KVCache 分层缓存、强化学习集成、面向投机解码的训练框架、面向超长上下文的分块流水线并行加速、Encoder-Prefill-Decode 分离等。同时,蔡尚铭也分享了 SGLang 下一季度的路线规划。


(图/蔡尚铭)


Mooncake 是以 KVCache 为中心、面向解耦场景设计的分布式大模型推理架构,通过零拷贝传输、多网卡池化与链路优化、弹性扩展与高效内存利用等技术,助力 SGLang 高效实现了 PD 分离、EPD 分离、分布式 KVCache 共享、弹性大 EP、快速权重加载等能力,显著提升了推理性能。KTransformers 是 CPU/GPU 混合的大模型异构推理框架,基于 AVX/AMX 指令集,实现了 NVFP4、FP8、BF16 等原生精度 MoE kernel,支持了高效的原生精度推理。趋境科技技术专家、Mooncake 核心贡献者杨珂联合清华大学在读研究生、KTransformers 核心开发者区庆亮分享了《共建大模型推理生态:Mooncake、KTransformers 与 SGLang》主题演讲。两位技术专家就 Mooncake 和 KTransformers 的架构设计、关键技术特性、最新进展,以及与 SGLang 的集成实践和应用效果做了详细介绍。


(图/由左至右:杨珂、区庆亮)


Arks 是一个端到端的 Kubernetes 原生大语言模型应用管理框架,为云原生环境中的 LLM 推理工作负载提供健壮可扩展的基础设施,Arks 底层使用 rbg 作为 workload 部署管理框架,让开发者专注于推理本身而无需关注底层细节。算秩未来推理高级专家王子昂分享了《Arks 快速部署推理服务&SIMM 高性能 kv 缓存》王子昂介绍,SiMM 是一款高性能分布式 KV 存储系统,兼具内存级访问速度与云盘级存储容量。它通过分布式架构实现高可用与高扩展,支持海量数据的低延迟读写,适用于缓存、状态存储与大规模在线服务等场景。同时,SiMM 提供开箱即用的部署与运维体验,无需复杂配置即可快速上线,帮助开发者在性能、成本与易用性之间取得最佳平衡。


(图/王子昂)


香港科技大学博士生、阿里巴巴 ROLL 团队学术实习生赵予珩带来《ROLL:面向大规模 AgenticRL 的异步解耦与异构算力调度实践》主题分享。赵予珩介绍了阿里巴巴自研强化学习框架 ROLL 及其针对 AgenticRL 异构负载的深度优化方案,并重点解读了如何通过异构硬件亲和性调度、细粒度异步编排以及状态感知的按需弹性部署,攻克大规模场景下的通信与计算瓶颈。此外,赵予珩与现场嘉宾们共同探讨了 ROLL 与 Mooncake 存算分离架构结合的未来演进,进一步释放大规模 RL 后训练的潜力。目前,ROLL 已在三千卡集群、千亿参数 MoE 模型上实现了生产级的极致吞吐。


(图/赵予珩)


近期,强化学习的任务形态正从以 reasoningtask 为主,逐步演进为更复杂的 Agentictask。这类任务引入了 agentframework,更加复杂的数据生成流程与稳定性挑战,对 RL 训练框架提出了全新要求。清华大学博士生、Slime 强化学习训练框架的核心开发者谢承兴在会上分享了《一个高效可扩展的 Agentic RL 框架》。他聚焦 slime 框架,系统介绍了其针对 AgenticRL 场景所做的一系列关键优化设计,包括灵活的 rollout 机制、解耦的 agent 接入方式、高效的并行与同步策略等,全面展示 slime 如何显著提升 AgenticRL 训练的 scalability。


(图/谢承兴)


EPD 在图像密集型请求(如单次 4–8 张图)下的部署与优化实践,在 1 QPS 负载下相较非分离部署可将延迟降低约 6–8 倍,并在高 QPS 下实现约 2 倍吞吐提升。SGLang 贡献者刘斯宇和龙蜥社区跟踪诊断 SIG 维护者、SGLang 贡献者陆扬分享了《从 EPD 到 SGLang-Omni:图像密集场景推理加速实践与下一代全模态推理架构演进》刘斯宇解析了 EPD 解耦架构如何支持组件灵活扩展与异构部署,以更高性价比避免 Prefill 节点成倍扩容。陆扬聚焦 SGLang 面向 Omni 多模态模型的系统演进,分享了如何从现有 LLM 推理架构扩展到同时支持文本、图像、音频、视频等多模态输入输出,并与现场嘉宾共同讨论了 Processor 拆分、数据流与调度设计、多阶段推理协同等关键问题与社区实践方向。

(图/由左至右:刘斯宇、陆扬)


近期,SGLang 强化学习团队在提升强化学习(RL)训练稳定性、并缩小训练与推理误差方面取得了显著进展。SGLang 贡献者、阿里巴巴集团通义千问(Qwen)团队成员林骏荣做了题为《使用 SGLang 进行高效稳定的强化学习》的主题演讲。林骏荣带我们回顾了这些进展,并讨论了其背后的关键动机和解决方案。


(图/林骏荣)


阿里云智能集团技术专家、阿里云 Tair KVCache Manager 负责人王悉宇分享了《Agent 时代下的全局 KVCache 管理架构演进》。聚焦 Agent 场景下 KVCache 的存储需求,王悉宇重点梳理了Agent 带来的多种新挑战和 KVCache 全局管理架构为应对挑战所做的演进,最后介绍了阿里云已经开源的企业级全局 KVCache 管理系统—-TairKVCacheManager。该系统已实现对 Mooncake 的原生支持,为 Agent 时代的大模型推理提供稳定高效的 KVCache 存储支持。


(图/王悉宇)


此外,会上也举办了以“智算新生态:异构 AI 算力底座如何驱动大模型全场景落地?”为主题的圆桌讨论,围绕大模型推理中的核心挑战——KV Cache 管理、异构算力调度、软硬件协同与超节点架构——展开深入探讨。本次圆桌由 Mooncake 核心贡献者马腾主持,邀请了龙蜥社区智算联盟主席宋卓、摩尔线程副总裁王华、沐曦股份研究院院长李兆石、中兴通讯 Al Infra 资深架构师孙洪峰、浪潮信息系统软件研发经理 Andy Cao、中国科学技术大学特任副研究员白有辉 6 位技术专家,与现场嘉宾讨论涵盖国产 GPU 在量化与存储访问上的创新潜力、CXL 与 RDMA 网络在跨节点 KV 传输的应用、稀疏 Attention 算法的工业落地路径,以及超节点环境下分层存储体系的演进趋势,共同展望中国 AI Infra 生态的未来发展。更多圆桌详情内容可点击阅读:产学研共话 AI Infra:龙蜥智算联盟探索大模型全场景落地新路径


(图/圆桌讨论)


最后,感谢各位嘉宾的精彩分享,也感谢马腾、蔡佳丽、金美琴、倪俊雄、袁艳桃、Mingyi Lu、Lingyan Hao、Liangsheng Yin、杨柯、屈鑫、郑环环等人对本场活动的组织和支持。


本次 MeetUp 回顾视频及 PPT 已上传至龙蜥官网,欢迎点击查看:

PPT 下载链接:https://docs.openanolis.cn/document/detail/rpzigrnb

本次直播回放链接:https://openanolis.cn/video/#1553233785695527131

相关文章
|
14天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
27985 100
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
9天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
5334 14
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
8天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
3859 8
|
10天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5076 17
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
3天前
|
应用服务中间件 API 网络安全
3分钟汉化OpenClaw,使用Docker快速部署启动OpenClaw(Clawdbot)教程
2026年全新推出的OpenClaw汉化版,是基于Claude API开发的智能对话系统本土化优化版本,解决了原版英文界面的使用壁垒,实现了界面、文档、指令的全中文适配。该版本采用Docker容器化部署方案,开箱即用,支持Linux、macOS、Windows全平台运行,适配个人、企业、生产等多种使用场景,同时具备灵活的配置选项和强大的扩展能力。本文将从项目简介、部署前准备、快速部署、详细配置、问题排查、监控维护等方面,提供完整的部署与使用指南,文中包含实操代码命令,确保不同技术水平的用户都能快速落地使用。
2359 0
|
10天前
|
存储 人工智能 机器人
OpenClaw是什么?阿里云OpenClaw(原Clawdbot/Moltbot)一键部署官方教程参考
OpenClaw是什么?OpenClaw(原Clawdbot/Moltbot)是一款实用的个人AI助理,能够24小时响应指令并执行任务,如处理文件、查询信息、自动化协同等。阿里云推出的OpenClaw一键部署方案,简化了复杂配置流程,用户无需专业技术储备,即可快速在轻量应用服务器上启用该服务,打造专属AI助理。本文将详细拆解部署全流程、进阶功能配置及常见问题解决方案,确保不改变原意且无营销表述。
5495 5
|
12天前
|
人工智能 JavaScript 应用服务中间件
零门槛部署本地AI助手:Windows系统Moltbot(Clawdbot)保姆级教程
Moltbot(原Clawdbot)是一款功能全面的智能体AI助手,不仅能通过聊天互动响应需求,还具备“动手”和“跑腿”能力——“手”可读写本地文件、执行代码、操控命令行,“脚”能联网搜索、访问网页并分析内容,“大脑”则可接入Qwen、OpenAI等云端API,或利用本地GPU运行模型。本教程专为Windows系统用户打造,从环境搭建到问题排查,详细拆解全流程,即使无技术基础也能顺利部署本地AI助理。
7425 16
|
12天前
|
人工智能 JavaScript API
零门槛部署本地 AI 助手:Clawdbot/Meltbot 部署深度保姆级教程
Clawdbot(Moltbot)是一款智能体AI助手,具备“手”(读写文件、执行代码)、“脚”(联网搜索、分析网页)和“脑”(接入Qwen/OpenAI等API或本地GPU模型)。本指南详解Windows下从Node.js环境搭建、一键安装到Token配置的全流程,助你快速部署本地AI助理。(239字)
5047 22

热门文章

最新文章