立春破冰!阿里云Tair KVCache重磅发布:开源商业双轮驱动,击穿大模型“显存墙”

简介: 立春之际,阿里云瑶池发布 Tair KVCache——面向大模型推理的缓存加速方案,开源 KVCache Manager 与 HiSim 仿真工具,推出企业级云服务。联合 NVIDIA、SGLang 等共建“计算-存储-调度”一体化AI基础设施,突破显存瓶颈,降低90%+显存占用,助力高效低成本 AI 推理。

正值立春,万物复苏。在 AI 算力需求持续井喷的当下,阿里云瑶池数据库举行“Tair KVCache 商业化暨开源发布会”,宣布正式推出面向大模型推理的缓存加速方案——Tair KVCache


此次发布会以“Cache 新春|击穿显存墙,开启算力新生”为主题,重磅开源了核心组件 Tair KVCache Manager 及高保真仿真工具 Tair KVCache HiSim,并正式上线了 Tair KVCache 企业级云服务。联合 NVIDIA Dynamo AIConfigurator、SGLang 社区、Mooncake 团队及阿里自研推理框架 RTP-LLM,Tair KVCache正在构建一个“计算-存储-调度”一体化的 AI 基础设施新范式。

配图.png

1.告别“显存焦虑”:AI 基础设施的范式跃迁

随着 DeepSeek、Qwen 等长文本模型与 Agentic AI 的爆发,推理系统的瓶颈正从“算力”向“显存”剧烈转移。在传统的单机部署模式下,昂贵的 GPU HBM 被海量的 KV Cache 填满,导致并发上不去、长文跑不动、算力被闲置。


阿里云数据库事业部 NoSQL 产品部负责人张为在发布会上表示:“Tair KVCache 是 Tair 产品能力的第三次跃迁。”——从 Redis 时代的「缓存数据省 I/O」,进化到 GPU 时代的「缓存注意力状态省计算」,再到 Tair KVCache 的“规模化、智能化的注意力状态管理 → 重构大模型推理成本模型”。这标志着缓存正从辅助组件升级为 AI 基础设施层的核心能力——让“状态”可存储、可共享、可调度,支撑智能体时代的规模化推理底座。

2.硬核开源:定义 KVCache 管理新标准

作为本次发布会的最大亮点,Tair KVCache 宣布开源两大核心套件:

Tair KVCache Manager (KVCM):全能的“记忆管家”

面对异构的存储介质(内存、SSD、云存储)和多样的推理框架,KVCM 提供了一套中心化的元数据管理服务,带来了三大核心价值:

  • 全局共享,极致性能:通过中心化地管理元数据,实现跨推理节点的 KVCache 全局池化共享,显著提升 AI Agent 这类需要长上下文场景下的推理性能。
  • 语义抽象,灵活解耦:通过合理的抽象,彻底解耦了上层的推理引擎与底层的存储系统,既简化了业务接入难度,也为底层存储的持续优化保留了充足的空间。
  • 大规模部署,全周期覆盖:这为了满足大规模商业化部署,提供了从模型上线前的 ROI 评估、高效筛选,一直到在线服务的可观测性、高可用保障等全生命周期的管理能力。

Tair-KVCache-HiSim:极低成本的“决策大脑”

“借助普通 CPU 服务器仿真,也能精准预测端到端推理性能。” 作为首个高保真推理仿真器 Tair KVCache HiSim,结合 NVIDIA Dynamo AIConfigurator,企业可以在通用 CPU 上以 39 万倍成本优势实现 <5% 误差的端到端性能预测,在“时延-吞吐-成本”的三角约束下,自动搜索出最优的软硬件配置组合,支持KVCache 管理和配置的决策优化。

3.生态共建:集结 AI Infra 顶尖力量

Tair KVCache 并非单点突破,而是与行业顶尖伙伴共同构建的生态闭环:

  • 存储底座:深度集成高性能分离式存储 Mooncake 架构。利用 RDMA 网络与高并发访问特性,Tair KVCache 将存取速度推向物理极限,在分离式架构下实现了毫秒级的加载延迟。
  • 推理框架:联合阿里巴巴内部支撑淘宝/天猫核心业务的核心推理框架 RTP-LLM,在超大规模生产环境中验证了 KVCache 技术的稳定性。实测数据显示,在配合稀疏化算法的情况下,可将显存占用降低 90% 以上。
  • 开源社区:拥抱 SGLang、NVIDIA Dynamo 等主流开源生态,通过标准化接口,让广大开发者能够无缝接入 Tair KVCache 的加速能力。

4.商业化落地:开箱即用的企业级服务

除开源贡献外,Tair KVCache 商业版今日同步揭晓。相比开源版本,商业版提供了全托管免运维、企业级 SLA 保障、更精细的容量动态规划能力以及针对各类使用场景的开箱即用服务。

“在立春这个特殊的日子发布,寓意着 AI 推理算力将迎来解冻与新生。” 通过开源与商业化的双轮驱动,Tair KVCache 致力于帮助每一家企业打破显存瓶颈,以极致的性价比构建专属的 AI 推理平台,加速 AGl 时代的到来。

配图1.png

5.关于 Tair KVCache

Tair KVCache 是阿里云推出的面向大模型推理场景的缓存加速服务,支持存算分离架构,提供高性能的全局 KVCache 存储、调度与管理能力。

目前已在 GitHub (https://github.com/alibaba/tair-kvcache/)开源核心组件,商业版已在阿里云官网上线。

立即观看发布会精彩回放https://www.aliyun.com/activity/database/tair-kvcache-release

欢迎大家搜索钉钉群号:109765011301加入 Tair KVCache 用户群交流

相关文章
|
存储 缓存 NoSQL
阿里云 Tair KVCache 仿真分析:高精度的计算和缓存模拟设计与实现
阿里云 Tair 推出 KVCache-HiSim,首个高保真 LLM 推理仿真工具。在 CPU 上实现<5%误差的性能预测,成本仅为真实集群的1/39万,支持多级缓存建模与 SLO 约束下的配置优化,助力大模型高效部署。
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
本文系统剖析面向智能体推理的 KVCache 技术演进,针对传统机制在长上下文、多轮决策与多智能体协同中的状态膨胀、持久化缺失和缓存孤立三大瓶颈,介绍阿里云 Tair KVCache 团队联合 SGLang 社区推出的 HiCache 分层缓存体系。该方案通过显存-内存-3FS 多级卸载与全局共享,实现缓存命中率提升至80%,TTFT 降低56%,推理 QPS 翻倍,支撑智能体时代的大模型高效推理。
|
2月前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
491 27
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
1月前
|
存储 缓存 算法
SGLang Hierarchical Sparse Attention 技术深度解析
阿里云 Tair 联合 SGLang 推出分层稀疏化框架,通过“稀疏+分层”协同优化,将 KVCache 从 GPU 显存扩展至 CPU 与远端存储,实现计算与存储效率双突破,为百万级超长上下文推理提供新路径。
|
存储 人工智能 运维
阿里云 Tair 基于 3FS 工程化落地 KVCache:企业级部署、高可用运维与性能调优实践
阿里云 Tair KVCache 团队联合硬件团队对 3FS 进行深度优化,通过 RDMA 流量均衡、小 I/O 调优及全用户态落盘引擎,提升 4K 随机读 IOPS 150%;增强 GDR 零拷贝、多租户隔离与云原生运维能力,构建高性能、高可用、易管理的 KVCache 存储底座,助力 AI 大模型推理降本增效。
|
1月前
|
Kubernetes 应用服务中间件 API
应对 Nginx Ingress 退役,是时候理清这些易混淆的概念了
本文希望提供一种更简单的方式,来理解这些容易混淆的技术概念:Nginx、Ingress、Ingress Controller、Ingress API、Nginx Ingress、Higress、Gateway API。
916 80
|
1月前
|
存储 数据采集 弹性计算
面向多租户云的 IO 智能诊断:从异常发现到分钟级定位
当 iowait 暴涨、IO 延迟飙升时,你是否还在手忙脚乱翻日志?阿里云 IO 一键诊断基于动态阈值模型与智能采集机制,实现异常秒级感知、现场自动抓取、根因结构化输出,让每一次 IO 波动都有据可查,真正实现从“被动响应”到“主动洞察”的跃迁。
332 63
|
25天前
|
JSON JavaScript 前端开发
Vue3项目JSON格式化工具技术实现详解
本文详解JSON格式化工具的前端实现,涵盖Composable核心逻辑(格式化、压缩、自动修复)与Vue交互优化(防抖预览、高亮动态加载、实时错误反馈),代码简洁高效,体验流畅。
295 15
Vue3项目JSON格式化工具技术实现详解
|
20小时前
|
人工智能 缓存 运维
2026年阿里云上OpenClaw从0到1搭建多 Agent 团队协作系统实战指南,执行效率提升10倍以上
在AI工具从“单点能力”向“系统协作”进化的今天,OpenClaw多Agent系统凭借“分工协作、自动拆解、实时联动”的核心优势,彻底改变了AI的使用逻辑——它不再是单打独斗的工具,而是能组成“数字战队”的协作系统,让复杂任务的执行效率提升10倍以上。
136 7
|
1月前
|
人工智能 运维 前端开发
阿里云百炼高代码应用全新升级
阿里云百炼高代码应用全新升级,支持界面化代码提交、一键模板创建及Pipeline流水线部署,全面兼容FC与网关多Region生产环境。开放构建日志与可观测能力,新增高中低代码Demo与AgentIdentity最佳实践,支持前端聊天体验与调试。
430 52