立春破冰!阿里云Tair KVCache重磅发布:开源商业双轮驱动,击穿大模型“显存墙”

简介: 立春之际,阿里云瑶池发布 Tair KVCache——面向大模型推理的缓存加速方案,开源 KVCache Manager 与 HiSim 仿真工具,推出企业级云服务。联合 NVIDIA、SGLang 等共建“计算-存储-调度”一体化AI基础设施,突破显存瓶颈,降低90%+显存占用,助力高效低成本 AI 推理。

正值立春,万物复苏。在 AI 算力需求持续井喷的当下,阿里云瑶池数据库举行“Tair KVCache 商业化暨开源发布会”,宣布正式推出面向大模型推理的缓存加速方案——Tair KVCache


此次发布会以“Cache 新春|击穿显存墙,开启算力新生”为主题,重磅开源了核心组件 Tair KVCache Manager 及高保真仿真工具 Tair KVCache HiSim,并正式上线了 Tair KVCache 企业级云服务。联合 NVIDIA Dynamo AIConfigurator、SGLang 社区、Mooncake 团队及阿里自研推理框架 RTP-LLM,Tair KVCache正在构建一个“计算-存储-调度”一体化的 AI 基础设施新范式。

配图.png

1.告别“显存焦虑”:AI 基础设施的范式跃迁

随着 DeepSeek、Qwen 等长文本模型与 Agentic AI 的爆发,推理系统的瓶颈正从“算力”向“显存”剧烈转移。在传统的单机部署模式下,昂贵的 GPU HBM 被海量的 KV Cache 填满,导致并发上不去、长文跑不动、算力被闲置。


阿里云数据库事业部 NoSQL 产品部负责人张为在发布会上表示:“Tair KVCache 是 Tair 产品能力的第三次跃迁。”——从 Redis 时代的「缓存数据省 I/O」,进化到 GPU 时代的「缓存注意力状态省计算」,再到 Tair KVCache 的“规模化、智能化的注意力状态管理 → 重构大模型推理成本模型”。这标志着缓存正从辅助组件升级为 AI 基础设施层的核心能力——让“状态”可存储、可共享、可调度,支撑智能体时代的规模化推理底座。

2.硬核开源:定义 KVCache 管理新标准

作为本次发布会的最大亮点,Tair KVCache 宣布开源两大核心套件:

Tair KVCache Manager (KVCM):全能的“记忆管家”

面对异构的存储介质(内存、SSD、云存储)和多样的推理框架,KVCM 提供了一套中心化的元数据管理服务,带来了三大核心价值:

  • 全局共享,极致性能:通过中心化地管理元数据,实现跨推理节点的 KVCache 全局池化共享,显著提升 AI Agent 这类需要长上下文场景下的推理性能。
  • 语义抽象,灵活解耦:通过合理的抽象,彻底解耦了上层的推理引擎与底层的存储系统,既简化了业务接入难度,也为底层存储的持续优化保留了充足的空间。
  • 大规模部署,全周期覆盖:这为了满足大规模商业化部署,提供了从模型上线前的 ROI 评估、高效筛选,一直到在线服务的可观测性、高可用保障等全生命周期的管理能力。

Tair-KVCache-HiSim:极低成本的“决策大脑”

“借助普通 CPU 服务器仿真,也能精准预测端到端推理性能。” 作为首个高保真推理仿真器 Tair KVCache HiSim,结合 NVIDIA Dynamo AIConfigurator,企业可以在通用 CPU 上以 39 万倍成本优势实现 <5% 误差的端到端性能预测,在“时延-吞吐-成本”的三角约束下,自动搜索出最优的软硬件配置组合,支持KVCache 管理和配置的决策优化。

3.生态共建:集结 AI Infra 顶尖力量

Tair KVCache 并非单点突破,而是与行业顶尖伙伴共同构建的生态闭环:

  • 存储底座:深度集成高性能分离式存储 Mooncake 架构。利用 RDMA 网络与高并发访问特性,Tair KVCache 将存取速度推向物理极限,在分离式架构下实现了毫秒级的加载延迟。
  • 推理框架:联合阿里巴巴内部支撑淘宝/天猫核心业务的核心推理框架 RTP-LLM,在超大规模生产环境中验证了 KVCache 技术的稳定性。实测数据显示,在配合稀疏化算法的情况下,可将显存占用降低 90% 以上。
  • 开源社区:拥抱 SGLang、NVIDIA Dynamo 等主流开源生态,通过标准化接口,让广大开发者能够无缝接入 Tair KVCache 的加速能力。

4.商业化落地:开箱即用的企业级服务

除开源贡献外,Tair KVCache 商业版今日同步揭晓。相比开源版本,商业版提供了全托管免运维、企业级 SLA 保障、更精细的容量动态规划能力以及针对各类使用场景的开箱即用服务。

“在立春这个特殊的日子发布,寓意着 AI 推理算力将迎来解冻与新生。” 通过开源与商业化的双轮驱动,Tair KVCache 致力于帮助每一家企业打破显存瓶颈,以极致的性价比构建专属的 AI 推理平台,加速 AGl 时代的到来。

配图1.png

5.关于 Tair KVCache

Tair KVCache 是阿里云推出的面向大模型推理场景的缓存加速服务,支持存算分离架构,提供高性能的全局 KVCache 存储、调度与管理能力。

目前已在 GitHub (https://github.com/alibaba/tair-kvcache/)开源核心组件,商业版已在阿里云官网上线。

立即观看发布会精彩回放https://www.aliyun.com/activity/database/tair-kvcache-release

欢迎大家搜索钉钉群号:109765011301加入 Tair KVCache 用户群交流

相关文章
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
本文系统剖析面向智能体推理的 KVCache 技术演进,针对传统机制在长上下文、多轮决策与多智能体协同中的状态膨胀、持久化缺失和缓存孤立三大瓶颈,介绍阿里云 Tair KVCache 团队联合 SGLang 社区推出的 HiCache 分层缓存体系。该方案通过显存-内存-3FS 多级卸载与全局共享,实现缓存命中率提升至80%,TTFT 降低56%,推理 QPS 翻倍,支撑智能体时代的大模型高效推理。
|
2月前
|
存储 缓存 调度
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
在大模型推理迈向“智能体时代”的今天,KVCache 已从性能优化手段升级为系统级基础设施,“显存内缓存”模式在长上下文、多轮交互等场景下难以为继,而“以存代算”的多级 KVCache 架构虽突破了容量瓶颈,却引入了一个由模型结构、硬件平台、推理引擎与缓存策略等因素交织而成的高维配置空间。如何在满足 SLO(如延迟、吞吐等服务等级目标)的前提下,找到“时延–吞吐–成本”的最优平衡点,成为规模化部署的核心挑战。
646 40
阿里云Tair KVCache仿真分析:高精度的计算和缓存模拟设计与实现
|
10天前
|
人工智能 缓存 监控
重磅!Cursor确认现场出席D2并发表主题演讲:Cursor大规模agentic编程系统的工程实践
第20届D2大会重磅议题:Cursor核心工程师吴宇晨揭秘AI编程工程化实践——从单次补全到持续决策的Agentic系统,如何通过统一架构、多模型动态路由与延迟栈优化,实现毫秒级响应与百万级并发?现场首曝生产级性能黑科技!
367 11
|
4天前
|
SQL 人工智能 自然语言处理
我用DataClaw打造了一个7X24小时的数据助理
阿里云DMS DataClaw是7×24小时AI数据助理,支持自然语言提工单、智能巡检、多任务编排、SQL风险预审等9项硬功能,原生集成DMS安全体系,覆盖MySQL/Oracle等60+数据源。现在可免费试用,快来体验吧。
308 9
|
3月前
|
存储 缓存 NoSQL
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
针对智能体式推理对KVCache的挑战,阿里云Tair KVCache团队联合SGLang社区推出HiCache技术,通过多级存储卸载与全局共享机制,实现缓存命中率翻倍、TTFT降低56%、QPS提升2倍,构建面向长上下文、高并发、多智能体协作的下一代推理缓存基础设施。
583 27
阿里云 Tair 联手 SGLang 共建 HiCache,构建面向“智能体式推理”的缓存新范式
|
存储 人工智能 运维
阿里云 Tair 基于 3FS 工程化落地 KVCache:企业级部署、高可用运维与性能调优实践
阿里云 Tair KVCache 团队联合硬件团队对 3FS 进行深度优化,通过 RDMA 流量均衡、小 I/O 调优及全用户态落盘引擎,提升 4K 随机读 IOPS 150%;增强 GDR 零拷贝、多租户隔离与云原生运维能力,构建高性能、高可用、易管理的 KVCache 存储底座,助力 AI 大模型推理降本增效。
|
27天前
|
存储 人工智能 缓存
AI问诊系统开发架构解析:大模型 + 医疗知识库如何落地
本文详解可商用AI问诊系统落地实践:摒弃纯对话模式,采用“大模型+医疗知识库(RAG)+分诊规则引擎+业务系统”四层架构,解决幻觉、不可控、非结构化、合规风险等核心痛点,涵盖架构设计、知识检索、症状抽取、智能分诊与生产级部署关键代码与经验。(239字)
|
存储 缓存 NoSQL
开源 | 阿里云 Tair KVCache Manager:企业级全局 KVCache 管理服务的架构设计与实现
阿里云 Tair 联合团队推出企业级全局 KVCache 管理服务 Tair KVCache Manager,通过中心化元数据管理与多后端存储池化,实现 KVCache 的跨实例共享与智能调度。该服务解耦算力与存储,支持弹性伸缩、多租户隔离及高可用保障,显著提升缓存命中率与资源利用率,重构大模型推理成本模型,支撑智能体时代的规模化推理需求。