【上海站】SGLang和ta的朋友们:共探大模型推理新范式

简介: 本次Meetup聚焦大模型推理性能突破,SGLang、阿里云Tair KVCache、NVIDIA与千问APP团队联合分享:SGLang路线图、Tair分层存储重构、低延迟优化及投机采样等实战方案,共探无限上下文与降本增效新路径。除了技术干货,现场参与还可获得定制的开工礼包,快来提前预定席位吧!

随着大模型(LLM)应用深入,长文档分析、多轮 Agent 交互等场景对上下文长度的需求爆发式增长。然而,有限的 GPU 和 HBM 显存资源已成为制约推理性能和扩展性的核心瓶颈。如何在保证极致推理速度的同时,显著降低 TCO 并支持无限延伸的上下文,是业界共同面临的挑战。

本次 Meetup 由 SGLang阿里云数据库 Tair KVCacheNVIDIA 开发者社区 和千问 APP 基础工程团队联合举办。活动将深度聚焦大模型推理的演进方向,公开 SGLang 的最新发展路线图,深度解密 Tair KVCache 如何通过分层存储和高速网络重构推理架构。同时,我们特邀来自千问 APP、 NVIDIA 的技术专家,分享在构建大规模、高性能推理服务的一线优化实战经验。

📅 3月7日14:00-18:00

📍上海 T·HOUSE 艺术空间(闵行区漕河泾开发区,古美路 1528 弄 7 号楼)


👉🏻报名链接:https://survey.aliyun.com/apps/zhiliao/rhkk7qcDX

加入钉钉交流群:109765011301

精彩看点预告

1️⃣ SGLang 独家剧透

SGLang 的现状与未来全景路线

《SGLang 高性能推理:现状与未来路线图全景解析》

《SGLang 面向 HybridModel 的优化实践》

2️⃣ 千问 APP 业务实战

看千问APP的大模型低延迟推理优化实践

《千问APP中大模型低延迟推理优化实践》

《ECHO-面向高并发低延迟推理的投机采样新方法》

3️⃣ 阿里云存储重构

深度解密阿里云 Tair KVCache 与 NVIDIA、Mooncake 等生态伙伴的技术突破。

《SGLang 阿里云 Tair KVCache 协同进化》

《Qwen3.5 推理优化实践》

《阿里云 Tair KVCM + Mooncake:全局管理与高性能存储的深度融合》

《SGLang 仿真优化: Tair HiSim 与 Dynamo AIConfigurator 的协同实践》

这是一场关于速度、规模与成本的技术深度交流,诚邀每一位关注 LLM 基础设施的开发者参与。除了技术干货,现场参与还可获得定制的开工礼包,快来提前预定席位吧!

👉🏻报名链接:https://survey.aliyun.com/apps/zhiliao/rhkk7qcDX

目录
相关文章
|
3月前
|
缓存 人工智能 NoSQL
“拆墙”现场:阿里云 Tair KVCache 携手 SGLang、千问与 NVIDIA 共话大模型推理优化
3月7日,阿里云Tair联合SGLang、千问App与NVIDIA在上海举办“大模型推理×数据库”Meetup。活动以“拆显存墙”为创意亮点,聚焦KV Cache加速与TTFT优化,展示硬件、管理、推理、应用四层全链路协同方案,推动Tair从传统缓存升级为AI时代核心缓存基础设施。
466 1
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
本文系统剖析面向智能体推理的 KVCache 技术演进,针对传统机制在长上下文、多轮决策与多智能体协同中的状态膨胀、持久化缺失和缓存孤立三大瓶颈,介绍阿里云 Tair KVCache 团队联合 SGLang 社区推出的 HiCache 分层缓存体系。该方案通过显存-内存-3FS 多级卸载与全局共享,实现缓存命中率提升至80%,TTFT 降低56%,推理 QPS 翻倍,支撑智能体时代的大模型高效推理。
|
3月前
|
人工智能 开发者
大喇叭:阿里云大模型就叫「千问」啦,英文名「Qwen」,忘掉通义吧~
阿里云大模型正式统一品牌为“千问”(Qwen),涵盖基础与专业领域模型,取代“通义千问”。通义实验室作为AI研发机构名称保留。即刻登录百炼平台或下载千问APP体验!
1796 1
|
5月前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
1423 40
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
|
4月前
|
存储 人工智能 测试技术
基于 VectorDBBench 的性能评测与架构解析:Lindorm 向量引擎的优化实践
阿里云Lindorm向量检索服务重磅升级,依托CBO/RBO混合优化器与自适应混合索引,实测QPS达5.6万(百万级)、2.4万+(千万级),P99延迟低至2ms,融合检索性能行业领先,全面支撑AI时代高并发、低延迟、强一致的生产级向量应用。
675 4
|
5月前
|
存储 缓存 算法
SGLang Hierarchical Sparse Attention 技术深度解析
阿里云 Tair 联合 SGLang 推出分层稀疏化框架,通过“稀疏+分层”协同优化,将 KVCache 从 GPU 显存扩展至 CPU 与远端存储,实现计算与存储效率双突破,为百万级超长上下文推理提供新路径。
|
机器学习/深度学习 存储 人工智能
开年首场智算沙龙!龙蜥X SGLang邀你共探软硬件协同“最后一公里”,欢迎报名
欢迎大家报名参加,为大模型效能提升与自主算力平台落地提供创新思路。
|
5月前
|
运维 监控 NoSQL
阿里云MongoDB数据库支撑心动公司《心动小镇》全球稳定发行
心动自研生活模拟手游《心动小镇》全球上线即火爆。面对全球数千万玩家带来的海量高频存档压力与复杂的跨国运维挑战,心动借助阿里云MongoDB强大的弹性伸缩与秒级回档能力,成功保障了全球玩家极致稳定的游戏体验。
677 0
|
5月前
|
存储 缓存 算法
SGLang Hierarchical Sparse Attention 技术深度解析
阿里云Tair联合SGLang、蚂蚁AI Infra及震旦团队,推出面向Sparse Attention的分层稀疏化框架:将全量KV Cache存于CPU,GPU仅驻留Top-k LRU Buffer,结合Sparse Diff Kernel与IO Kernel实现高效增量传输。实测DeepSeek DSA场景下,单请求显存从8GB降至200MB,吞吐提升3倍,突破长上下文推理的带宽与容量双重瓶颈。(240字)
SGLang Hierarchical Sparse Attention 技术深度解析