阿里云瑶池数据库KVCache亮相NVIDIA GTC 2026

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS Agent(兼容OpenClaw),2核4GB
简介: 阿里云瑶池数据库亮相NVIDIA GTC 2026,首发“全局KV Cache存储系统”,破解大模型推理显存瓶颈。融合Tair与PolarDB,实现存算协同、全局池化与经济性优化,全链路支撑Agentic AI时代多模态数据底座演进。

上周,全球人工智能与加速计算领域的顶级盛会——NVIDIA GTC 2026 在美国圣何塞圆满举行。连续六年稳居 Gartner 数据库魔力象限“领导者”象限的阿里云瑶池数据库,再次以中国自研数据库代表身份闪耀国际舞台。阿里云资深副总裁、数据库产品事业部负责人李飞飞率队,携多项AI领域前沿技术成果,亮相大会。


通过专题演讲、闭门研讨及深度对话,团队系统展示了阿里云瑶池数据库在支持推理缓存加速、模型推理及智能体(Agent)应用等方面的核心能力,向全球开发者与行业伙伴彰显了中国自研数据库在AI浪潮下的硬核创新实力与全球化技术视野。此次亮相也有力呼应了李飞飞在2025年9月云栖大会所言:“数据与AI大模型的开放融合是大势所趋。面向 Agentic AI 时代,阿里云瑶池数据库正加速迈向新阶段——从云原生数据底座向‘AI 就绪’的多模态数据底座全面演进。”

image.png

专题演讲:基于全局 KV Cache 存储系统的高效 LLM 推理加速方案

阿里云瑶池数据库团队持续深耕 KVCache 技术,致力于打破大模型推理中的“显存墙”,最大化计算与存储资源利用率,为 AI 时代的数据基础设施注入全新动能。目前,阿里云瑶池数据库融合高性能内存数据库 Tair 与云原生数据库 PolarDB 的核心优势,双擎驱动支持 KVCache 能力,构建起面向 AI 原生的智能数据底座。

image.png

在 GTC 2026 专题论坛上,阿里云数据库产品事业部资深技术总监张为发表了题为《基于全局 KV Cache 存储系统的高效 LLM 推理加速方案》的主题演讲。他指出,随着大模型参数规模持续攀升,推理阶段的显存压力已成为制约模型部署效率与运营成本的关键瓶颈——尤其在高并发、低延迟的智能体(Agent)应用场景中,性能与可扩展性挑战日益凸显。


针对这一挑战,张为以阿里云 Tair KVCache 为例,系统分享了如何将数据库领域多年沉淀的数据缓存管理能力,创新应用于大模型推理中的 KV Cache 管理。通过将 KV Cache 从计算层解耦并下沉至高性能分布式缓存系统,Tair 实现了与推理引擎、底层硬件及上层应用的深度协同,构建起一套高效的“存算协同”架构。该方案不仅显著缓解显存压力,更大幅提升 LLM 推理吞吐与响应效率,为 AI 原生时代的大规模模型落地提供了坚实的数据基础设施支撑。

👆点击观看完整演讲视频


回顾过去一年的技术演进,阿里云数据库 Tair 深度融入开源生态,与合作伙伴共同补齐了 KVCache 解决方案的关键拼图。针对推理链路中的核心痛点,从分层调度、模型支持、存储优化、全局管理及算法创新进行了系统性优化:


KV Cache Scheduling:实现了一套全面的分层数据流方案,利用高度智能的预取技术和基数树前缀复用,在极“热”的 GPU 显存、“温”的 CPU 主机内存以及“冷”的远端存储层之间,实现缓存块的动态路由。


KV Cache Representation:随着注意力机制结构的演进,Tair KVCache 从底层重新设计了内存池,以支持 Mamba 与 Transformer 结合等复杂的混合架构,以及高效的稀疏注意力结构,确保不浪费任何一字节的显存资源。


KV Cache Placement:Tair KVCache 正在实现彻底告别孤岛式的单机本地存储,迈向真正的全局池化。通过采用超高速共享存储后端(如 DeepSeek 的 3FS 分布式文件系统),并配合强大的全局元数据服务,实现了真正的存算分离。


Economic-Objective Optimization:Tair KVCache 在整套架构之上构建了一个支持多级 KV Cache 模拟的高保真仿真引擎。该引擎持续探索多维帕累托前沿,主动平衡计算成本、存储成本、Token 延迟以及系统吞吐量,从而让我们能够实时应用经济效益最优的管理策略。

image.png

此前,业界 KVCache 方案往往局限于单一环节(如仅优化引擎或仅做存储),缺乏统一标准、全局管理及效果评估手段,导致落地困难、成本不可控。


阿里云数据库 Tair KVCache 深度融入开源生态,联合 SGLang 共建 HiCache 以及混合模型架构适配;与阿里巴巴集团 RTP-LLM 开源共建 KVCM 全局池化;与阿里云服务器团队以 3FS 为基座实现高性能远端存储落地;联合 NVIDIA 推出 HiSim 仿真器,将评估成本降低39万倍并精准预测 ROI;与通义实验室联合推出 VLCache 缓存复用框架,显著降低多模态场景显存占用与计算成本.....这一系列成果标志着 Tair KVCache 已从单一缓存组件演进为全链路打通、定义 AI 时代性能边界的存储基础设施,首次实现了从引擎调度、存储底座、元数据管理、仿真评估到算法优化的全链路覆盖


不仅如此,Tair KVCache 还补齐了行业在标准化、可观测性及经济性评估上的缺失环节,联合清华、字节跳动、腾讯云、华为等业内伙伴,共同推动 KVCache 服务化标准的制定,为 Agent 时代的大模型推理提供了坚实、完整的基础设施底座。


NVIDIA GTC大会汇聚了全球顶尖的AI科学家、工程师与产业领袖,每一个受邀 Session 都经过严苛筛选。这次入选,不仅是对阿里云瑶池数据库在 AI 推理基础设施领域多年积累的高度认可,更标志着中国云计算厂商在全球 AI 底层技术话语权上迈出了关键一步。

相关文章
|
4月前
|
存储 缓存 NoSQL
即将开源 | 阿里云Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现
【重磅】阿里云 Tair KVCache 团队联合阿里巴巴智能引擎、基础设施与稳定性工程团队即将开源企业级全局 KVCache 管理服务 Tair KVCache Manager,本文详细介绍该服务的架构设计与实现细节。 随着 Agentic AI兴起,以推理引擎为中心的传统单机分层方案已无法满足新时代的 KVCache 存储需求。随着 KVCache 池化存储在大规模 Agent 推理场景中走向落地,需要构建具备容量精准评估、动态弹性伸缩、多租户隔离、高可用保障及版本协同管理能力的企业级 KVCache 管理系统,以支撑PB级存储下的成本效益优化与服务可靠性需求。为了解决这些问题,我们设计
|
3月前
|
存储 机器学习/深度学习 人工智能
当我们谈论 AI 推理的 KV Cache,我们在说什么?
本文以《Attention Is All You Need》为起点,深入浅出地解析了 Transformer 架构的核心思想与技术细节。
当我们谈论 AI 推理的 KV Cache,我们在说什么?
|
2月前
|
缓存 人工智能 NoSQL
“拆墙”现场:阿里云 Tair KVCache 携手 SGLang、千问与 NVIDIA 共话大模型推理优化
3月7日,阿里云Tair联合SGLang、千问App与NVIDIA在上海举办“大模型推理×数据库”Meetup。活动以“拆显存墙”为创意亮点,聚焦KV Cache加速与TTFT优化,展示硬件、管理、推理、应用四层全链路协同方案,推动Tair从传统缓存升级为AI时代核心缓存基础设施。
307 1
|
3月前
|
人工智能 搜索推荐 关系型数据库
PolarDB 推出为 AI Agent 构建专属长效记忆的托管服务
智能体(AI Agent)应用的核心挑战之一是其健忘的特性,无法记住历史交互、用户偏好或长期上下文。PolarDB PostgreSQL 版和 PolarDB MySQL 版现推出为 AI Agent 构建专属长效记忆的托管服务,让您的 AI 应用记住一切,从而构建更智能、更具个性化的用户体验。
|
存储 弹性计算 人工智能
阿里云文件存储NAS通用型、极速型和文件存储CPFS有什么区别?
阿里云文件存储NAS极速型NAS低时延,适合企业级时延敏感型核心业务;文件存储CPFS拥有高吞吐和高IOPS,适合高性能计算业务;通用型NAS大容量、高性价比、弹性扩展,支持低频介质,适合通用类文件共享业务。
2874 0
阿里云文件存储NAS通用型、极速型和文件存储CPFS有什么区别?
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
本文系统剖析面向智能体推理的 KVCache 技术演进,针对传统机制在长上下文、多轮决策与多智能体协同中的状态膨胀、持久化缺失和缓存孤立三大瓶颈,介绍阿里云 Tair KVCache 团队联合 SGLang 社区推出的 HiCache 分层缓存体系。该方案通过显存-内存-3FS 多级卸载与全局共享,实现缓存命中率提升至80%,TTFT 降低56%,推理 QPS 翻倍,支撑智能体时代的大模型高效推理。
|
29天前
|
SQL 人工智能 运维
【Skills专题】polardbx-sql :一句话帮你设计8亿行单表的 PolarDB-X 分区方案
PolarDB-X Skills 是专为AI代码智能体打造的数据库技能库,聚焦分布式分区设计。将PolarDB-X内核知识封装成可调用Skill,支持自然语言输入,自动生成精准、可执行的分区方案与DDL,覆盖SQL编写、运维及开发全场景。 更多精彩内容可关注“PolarDB”公众号
|
4月前
|
存储 缓存 算法
SGLang Hierarchical Sparse Attention 技术深度解析
阿里云 Tair 联合 SGLang 推出分层稀疏化框架,通过“稀疏+分层”协同优化,将 KVCache 从 GPU 显存扩展至 CPU 与远端存储,实现计算与存储效率双突破,为百万级超长上下文推理提供新路径。
|
存储 缓存 NoSQL
开源 | 阿里云 Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现
阿里云 Tair 联合团队推出企业级全局 KVCache 管理服务 Tair KVCache Manager,通过中心化元数据管理与多后端存储池化,实现 KVCache 的跨实例共享与智能调度。该服务解耦算力与存储,支持弹性伸缩、多租户隔离及高可用保障,显著提升缓存命中率与资源利用率,重构大模型推理成本模型,支撑智能体时代的规模化推理需求。