阿里云升级全栈存储支撑AI大模型Agent全链路-开发者社区-阿里云

智存跃迁，阿里云存储面向 AI 升级全栈数据存储能力

2025-10-15 1689

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 一文总览阿里云存储产品创新与进展！

近日，在 2025 云栖大会上，阿里云宣布对其存储产品进行全面升级，面向大模型训练、推理、 Agent 应用等企业智能场景，升级和发布了多项产品能力。此次升级涵盖对象存储 OSS、文件存储 CPFS、块存储 EBS、表格存储 Tablestore、企业网盘及云备份等多个核心产品，旨在构建统一、高效、智能的 AI 数据底座，支撑从模型训练到应用落地的全链路需求。

在大模型时代，高质量数据是提升模型训练效果的前提。数据预处理阶段，阿里云将对象存储 OSS 定位为 AI 时代的统一数据湖底座，实现多模态数据的高效汇聚与统一管理。

当前，客户在阿里云上基于 OSS 已经构建了 3 万多个数据湖。此次大会，OSS 发布新的能力，全面提升性能和管理效率，优化成本：资源池 QoS 实现了根据优先级对多种业务的吞吐进行动态流控，并支持最低吞吐保障，大幅降低了管理难度，提高吞吐利用率。OSS 加速器实现了与计算资源的同可用区部署，实现个位数毫秒的访问延迟和 100GB/s 的带宽弹性供给。新的 OSS Connector for Hadoop 2.0 在 TPC-DS 测试中实现了端到端查询时间缩短 28.5%，结合加速器可以再获得 40% 的加速效果。OSSFS 2.0 让 DeepSeek-R1 模型启动速度提升 3 倍。OSS 生命周期支持归档访问后自动转回标准，降低冷数据转热后的访问成本。在模型训练阶段，灵骏作为 AI 云的计算引擎，构建了大规模高性能的 AI 算力集群，主要组件包括磐久 AI 计算服务器、HPN 高性能网络、灵骏计算集群和 CPFS 高性能存储集群。

在存储方面，阿里云 CPFS 高性能存储的能力全面升级，为训练和推理全面提效。

首先，单客户端的吞吐提升到 40GB/s，较以往提升 60%，有效加速了模型训练中数据集加载和 Checkpoint 过程。

其次，增加了计算侧的单机和分布式缓存，加速模型文件的分发，降低访问的延迟。通过操作系统内核和软硬一体的协同优化，单客户端提供百万 IOPS 的能力，满足小文件数据加载、推理和 KVCache 等场景的需求。

第三，在成本优化方面，CPFS 即将推出低频存储层，通过存储分层来降低成本，最高达到降低 83% 的成本。同时持续优化 CPFS 和 OSS 的数据流动，提供 100GB/s 的吞吐。

另外，灵骏的系统盘从本地盘全面升级为 ESSD 云盘，灵骏节点的启动耗时降低90%，千卡集群扩容耗时从小时级降低到分钟级；提供单盘最高容量 64TiB、吞吐 4GB/s 的能力；并且支持快照能力，保障数据安全。实现训练与推理之间的高效协同，真正支撑训推一体架构。

面向 Agent 和 Agentic AI 应用，阿里云构建了高度优化的 AI 全栈基础设施，来支撑智能体的落地和创新，从而促进智能体的普及。

在 AI 应用中，向量数据爆发式增长带来的存储成本与管理复杂度上升的问题，阿里云 OSS 推出全新“向量 Bucket”存储桶类型。向量搜索是生成式 AI 应用程序中采用的一项新兴技术，把信息转化为“向量”，然后通过向量搜索来查找匹配的数据。OSS Vector Bucket 向量存储桶是一种新的存储桶类型，提供向量数据的存储、索引、访问和查询。通过 OSS SDK 实现了对原始数据和向量数据的统一管理和访问，开箱即用，保持了易用性。OSS 向量存储桶与自建的开源向量数据库相比成本可以下降 95%，可以经济划算地存储大量非结构化数据如视频、图片、音频和文档文件的向量嵌入数据，支持 AI 语义搜索和查询、RAG 知识库等应用。向量存储桶继承了对象存储的技术和开发生态，保持了弹性、易用、高可靠和高可用的特点。

在智能体应用中，智能体需要与大语言模型进行交互。大语言模型本质上是无状态的，在“记忆”上主要局限于上下文窗口的长度。因此在智能体应用中，需要有一个“记忆存储”。其次，智能体与环境和用户的交互过程中，也在不断进行知识的积累和自我演进，需要有“知识库存储”。表格存储 Tablestore 为智能体提供高性能的记忆存储和知识库存储。百亿规模下提供毫秒级别的查询时延。支持向量、标量和全文的混合检索，支持多路召回查询，保障高召回率。保持了 Tablestore 的弹性、丰富生态和高可靠和高可用的特点。

针对希望快速构建多模态语义检索的企业，阿里云 OSS MetaQuery 提供基于内容和语义的检索。对象存储 OSS 里有大量的非结构化数据，如视频、图片、音频和文档文件等。我们基于 OSS 的向量存储桶，以及通义大模型，为客户构建了一个开箱即用的方案，通过一键开通的方式为客户的对象数据构建向量特征抽取、存储和索引。采用多路召回和优化的精排算法，保障搜索和查询的召回率和精确率。

在一些垂类业务场景，比如我们面向 IP 网络摄像机场景进行了场景化优化，一方面缩短了客户的开发时间，降低了接入门槛，节约了 70% 的开发时间。另一方面，精调通义模型，与客户自建相比，准召率从 50% 提升到 85%。简单易用的产品能力，能够有效提升 AI 应用的开发效率。

在智能化场景方面，阿里云企业网盘同步发布多项 AI 功能。文档 AI 速览可自动提取章节摘要，提升办公效率；视频 AI 速览实现关键帧提取与内容概要生成；以图搜图功能则支持基于视觉特征的相似图像检索，助力企业高效管理多媒体资产。

面对 AI 时代数据爆发与安全挑战，阿里云备份服务全新升级，以“智知、智管、智优”重塑数据保护：自动标签备份、跨账号统一管理、ECS 文件免费备份、CPFS 高性能备份等功能全面上线，针对 AI 训练数据、模型版本、智能体记忆库一键守护。同时，新增病毒检测与自动归档，防勒索更安心。让数据真正成为可持续发展的核心资产。

未来，阿里云存储将持续优化性能与成本，为企业提供高效、稳定、智能化的数据存储基础设施，助力 AI 应用规模化落地。

智存跃迁，阿里云存储面向 AI 升级全栈数据存储能力

云存储

热门文章

最新文章

相关课程

相关电子书

相关实验场景