近日,在2025云栖大会上,阿里云宣布对其存储产品进行全面升级,面向大模型训练、推理、 Agent 应用等企业智能场景,升级和发布了多项产品能力。此次升级涵盖对象存储 OSS、文件存储 CPFS、块存储 EBS、表格存储 Tablestore 、企业网盘及云备份等多个核心产品,旨在构建统一、高效、智能的 AI 数据底座,支撑从模型训练到应用落地的全链路需求。
在大模型时代,高质量数据是提升模型训练效果的前提。数据预处理阶段,阿里云将对象存储 OSS 定位为 AI 时代的统一数据湖底座,实现多模态数据的高效汇聚与统一管理。
当前,客户在阿里云上基于 OSS 已经构建了 3 万多个数据湖。此次大会,OSS 发布新的能力,全面提升性能和管理效率,优化成本:资源池 QoS 实现了根据优先级对多种业务的吞吐进行动态流控,并支持最低吞吐保障,大幅降低了管理难度,提高吞吐利用率。OSS 加速器实现了与计算资源的同可用区部署,实现个位数毫秒的访问延迟和 100GB/s 的带宽弹性供给。新的 OSS Connector for Hadoop 2.0 在 TPC-DS 测试中实现了端到端查询时间缩短 28.5%,结合加速器可以再获得 40% 的加速效果。OSSFS 2.0 让 DeepSeek-R1 模型启动速度提升 3 倍 。OSS 生命周期支持归档访问后自动转回标准,降低冷数据转热后的访问成本。
在模型训练阶段,灵骏作为 AI 云的计算引擎,构建了大规模高性能的 AI 算力集群,主要组件包括磐久 AI 计算服务器、HPN 高性能网络、灵骏计算集群和 CPFS 高性能存储集群。
在存储方面,阿里云 CPFS 高性能存储的能力全面升级,为训练和推理全面提效。
首先,单客户端的吞吐提升到 40GB/s,较以往提升 60%,有效加速了模型训练中数据集加载和 Checkpoint 过程;
其次,增加了计算侧的单机和分布式缓存,加速模型文件的分发,降低访问的延迟。通过操作系统内核和软硬一体的协同优化,单客户端提供百万 IOPS 的能力,满足小文件数据加载、推理和 KVCache 等场景的需求。
第三,加强 CPFS 和 OSS 的数据流动,提供 100GB/s 的吞吐。在成本优化方面,即将推出低频的 CPFS,通过存储分层来降低成本,最高达到降低 83% 的成本。
同时,灵骏的系统盘从本地盘全面升级为 ESSD 云盘,灵骏节点的启动耗时降低90%,千卡集群扩容耗时从小时级降低到分钟级;提供单盘最高容量 64 TiB、吞吐 4 GB/s 的能力;并且支持快照能力,保障数据安全。实现训练与推理之间的高效协同,真正支撑训推一体架构。
面向 Agent 和 Agentic AI 应用,阿里云构建了高度优化的 AI 全栈基础设施,来支撑智能体的落地和创新,从而促进智能体的普及。
在 AI 应用中,向量数据爆发式增长带来的存储成本与管理复杂度上升的问题,阿里云 OSS 推出全新“向量 Bucket”存储桶类型。向量搜索是生成式 AI 应用程序中采用的一项新兴技术,把信息转化为“向量”,然后通过向量搜索来查找匹配的数据。OSS Vector Bucket 向量存储桶是一种新的存储桶类型,提供向量数据的存储、索引、访问和查询。通过 OSS SDK 实现了对原始数据和向量数据的统一管理和访问,开箱即用,保持了易用性。OSS 向量存储桶与自建的开源向量数据库相比成本可以下降 95%,可以经济划算地存储大量非结构化数据如视频、图片、音频和文档文件的向量嵌入数据,支持 AI 语义搜索和查询、RAG 知识库等应用。向量存储桶继承了对象存储的技术和开发生态,保持了弹性、易用、高可靠和高可用的特点。
在智能体应用中,智能体需要与大语言模型进行交互。大语言模型本质上是无状态的, 在“记忆”上主要局限于上下文窗口的长度。因此在智能体应用中,需要有一个“记忆存储”。其次,智能体与环境和用户的交互过程中,也在不断进行知识的积累和自我演进,需要有“知识库存储”。表格存储 Tablestore 为智能体提供高性能的记忆存储和知识库存储。百亿规模下提供毫秒级别的查询时延。支持向量、标量和全文的混合检索,支持多路召回查询,保障高召回率。保持了 Tablestore 的弹性、丰富生态和高可靠和高可用的特点。
针对希望快速构建多模态语义检索的企业,阿里云 OSS MetaQuery 提供基于内容和语义的检索。对象存储 OSS 里有大量的非结构化数据,如视频、图片、音频和文档文件等。我们基于 OSS 的向量存储桶,以及通义大模型,为客户构建了一个开箱即用的方案,通过一键开通的方式为客户的对象数据构建向量特征抽取、存储和索引。采用多路召回和优化的精排算法,保障搜索和查询的召回率和精确率。
在一些垂类业务场景,比如我们面向 IP 网络摄像机场景进行了场景化优化,一方面缩短了客户的开发时间,降低了接入门槛,节约了 70% 的开发时间。另一方面,精调通义模型,与客户自建相比,准召率从 50% 提升到 85%。简单易用的产品能力,能够有效提升 AI 应用的开发效率。
在智能化场景方面,阿里云企业网盘同步发布多项 AI 功能。文档 AI 速览可自动提取章节摘要,提升办公效率;视频 AI 速览实现关键帧提取与内容概要生成;以图搜图功能则支持基于视觉特征的相似图像检索,助力企业高效管理多媒体资产。
面对 AI 时代数据爆发与安全挑战,阿里云备份服务全新升级,以“智知、智管、智优”重塑数据保护:自动标签备份、跨账号统一管理、ECS 文件免费备份、CPFS 高性能备份等功能全面上线,针对 AI 训练数据、模型版本、智能体记忆库一键守护。同时,新增病毒检测与自动归档,防勒索更安心。让数据真正成为可持续发展的核心资产。
未来,阿里云存储将持续优化性能与成本,为企业提供高效、稳定、智能化的数据存储基础设施,助力 AI 应用规模化落地。