【上海站】SGLang和ta的朋友们：共探大模型推理新范式-阿里云开发者社区

【上海站】SGLang和ta的朋友们：共探大模型推理新范式

2026-02-26 603

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本次Meetup聚焦大模型推理性能突破，SGLang、阿里云Tair KVCache、NVIDIA与千问APP团队联合分享：SGLang路线图、Tair分层存储重构、低延迟优化及投机采样等实战方案，共探无限上下文与降本增效新路径。除了技术干货，现场参与还可获得定制的开工礼包，快来提前预定席位吧！

随着大模型（LLM）应用深入，长文档分析、多轮 Agent 交互等场景对上下文长度的需求爆发式增长。然而，有限的 GPU 和 HBM 显存资源已成为制约推理性能和扩展性的核心瓶颈。如何在保证极致推理速度的同时，显著降低 TCO 并支持无限延伸的上下文，是业界共同面临的挑战。

本次 Meetup 由 SGLang、阿里云数据库 Tair KVCache 、NVIDIA 开发者社区和千问 APP 基础工程团队联合举办。活动将深度聚焦大模型推理的演进方向，公开 SGLang 的最新发展路线图，深度解密 Tair KVCache 如何通过分层存储和高速网络重构推理架构。同时，我们特邀来自千问 APP、 NVIDIA 的技术专家，分享在构建大规模、高性能推理服务的一线优化实战经验。

📅 3月7日14:00-18:00

📍上海 T·HOUSE 艺术空间（闵行区漕河泾开发区，古美路 1528 弄 7 号楼）

👉🏻报名链接：https://survey.aliyun.com/apps/zhiliao/rhkk7qcDX

加入钉钉交流群：109765011301

精彩看点预告

1️⃣ SGLang 独家剧透

SGLang 的现状与未来全景路线

《SGLang 高性能推理：现状与未来路线图全景解析》

《SGLang 面向 HybridModel 的优化实践》

2️⃣ 千问 APP 业务实战

看千问APP的大模型低延迟推理优化实践

《千问APP中大模型低延迟推理优化实践》

《ECHO-面向高并发低延迟推理的投机采样新方法》

3️⃣ 阿里云存储重构

深度解密阿里云 Tair KVCache 与 NVIDIA、Mooncake 等生态伙伴的技术突破。

《SGLang 与阿里云 Tair KVCache 协同进化》

《Qwen3.5 推理优化实践》

《阿里云 Tair KVCM + Mooncake：全局管理与高性能存储的深度融合》

《SGLang 仿真优化: Tair HiSim 与 Dynamo AIConfigurator 的协同实践》

这是一场关于速度、规模与成本的技术深度交流，诚邀每一位关注 LLM 基础设施的开发者参与。除了技术干货，现场参与还可获得定制的开工礼包，快来提前预定席位吧！

👉🏻报名链接：https://survey.aliyun.com/apps/zhiliao/rhkk7qcDX

【上海站】SGLang和ta的朋友们：共探大模型推理新范式

NoSQL数据库

热门文章

最新文章

相关电子书