智存跃迁,阿里云存储面向 AI 升级全栈数据存储能力

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储OSS,敏感数据保护2.0 200GB 1年
简介: 一文总览阿里云存储产品创新与进展!

近日,在2025云栖大会上,阿里云宣布对其存储产品进行全面升级,面向大模型训练、推理、 Agent 应用等企业智能场景,升级和发布了多项产品能力。此次升级涵盖对象存储 OSS、文件存储 CPFS、块存储 EBS、表格存储 Tablestore 、企业网盘及云备份等多个核心产品,旨在构建统一、高效、智能的 AI 数据底座,支撑从模型训练到应用落地的全链路需求。

在大模型时代,高质量数据是提升模型训练效果的前提。数据预处理阶段,阿里云将对象存储 OSS 定位为 AI 时代的统一数据湖底座,实现多模态数据的高效汇聚与统一管理。

当前,客户在阿里云上基于 OSS 已经构建了 3 万多个数据湖。此次大会,OSS 发布新的能力,全面提升性能和管理效率,优化成本:资源池 QoS 实现了根据优先级对多种业务的吞吐进行动态流控,并支持最低吞吐保障,大幅降低了管理难度,提高吞吐利用率。OSS 加速器实现了与计算资源的同可用区部署,实现个位数毫秒的访问延迟和 100GB/s 的带宽弹性供给。新的 OSS Connector for Hadoop 2.0 在 TPC-DS 测试中实现了端到端查询时间缩短 28.5%,结合加速器可以再获得 40% 的加速效果。OSSFS 2.0 让 DeepSeek-R1 模型启动速度提升 3 倍 。OSS 生命周期支持归档访问后自动转回标准,降低冷数据转热后的访问成本。

在模型训练阶段,灵骏作为 AI 云的计算引擎,构建了大规模高性能的 AI 算力集群,主要组件包括磐久 AI 计算服务器、HPN 高性能网络、灵骏计算集群和 CPFS 高性能存储集群。

在存储方面,阿里云 CPFS 高性能存储的能力全面升级,为训练和推理全面提效。

首先,单客户端的吞吐提升到 40GB/s,较以往提升 60%,有效加速了模型训练中数据集加载和 Checkpoint 过程;

其次,增加了计算侧的单机和分布式缓存,加速模型文件的分发,降低访问的延迟。通过操作系统内核和软硬一体的协同优化,单客户端提供百万 IOPS 的能力,满足小文件数据加载、推理和 KVCache 等场景的需求。

第三,加强 CPFS 和 OSS 的数据流动,提供 100GB/s 的吞吐。在成本优化方面,即将推出低频的 CPFS,通过存储分层来降低成本,最高达到降低 83% 的成本。

同时,灵骏的系统盘从本地盘全面升级为 ESSD 云盘,灵骏节点的启动耗时降低90%,千卡集群扩容耗时从小时级降低到分钟级;提供单盘最高容量 64 TiB、吞吐 4 GB/s 的能力;并且支持快照能力,保障数据安全。实现训练与推理之间的高效协同,真正支撑训推一体架构。

面向 Agent 和 Agentic AI 应用,阿里云构建了高度优化的 AI 全栈基础设施,来支撑智能体的落地和创新,从而促进智能体的普及。

在 AI 应用中,向量数据爆发式增长带来的存储成本与管理复杂度上升的问题,阿里云 OSS 推出全新“向量 Bucket”存储桶类型。向量搜索是生成式 AI 应用程序中采用的一项新兴技术,把信息转化为“向量”,然后通过向量搜索来查找匹配的数据。OSS Vector Bucket  向量存储桶是一种新的存储桶类型,提供向量数据的存储、索引、访问和查询。通过 OSS SDK 实现了对原始数据和向量数据的统一管理和访问,开箱即用,保持了易用性。OSS 向量存储桶与自建的开源向量数据库相比成本可以下降 95%,可以经济划算地存储大量非结构化数据如视频、图片、音频和文档文件的向量嵌入数据,支持 AI 语义搜索和查询、RAG 知识库等应用。向量存储桶继承了对象存储的技术和开发生态,保持了弹性、易用、高可靠和高可用的特点。

在智能体应用中,智能体需要与大语言模型进行交互。大语言模型本质上是无状态的, 在“记忆”上主要局限于上下文窗口的长度。因此在智能体应用中,需要有一个“记忆存储”。其次,智能体与环境和用户的交互过程中,也在不断进行知识的积累和自我演进,需要有“知识库存储”。表格存储 Tablestore 为智能体提供高性能的记忆存储和知识库存储。百亿规模下提供毫秒级别的查询时延。支持向量、标量和全文的混合检索,支持多路召回查询,保障高召回率。保持了 Tablestore 的弹性、丰富生态和高可靠和高可用的特点。

针对希望快速构建多模态语义检索的企业,阿里云 OSS MetaQuery 提供基于内容和语义的检索。对象存储 OSS 里有大量的非结构化数据,如视频、图片、音频和文档文件等。我们基于 OSS 的向量存储桶,以及通义大模型,为客户构建了一个开箱即用的方案,通过一键开通的方式为客户的对象数据构建向量特征抽取、存储和索引。采用多路召回和优化的精排算法,保障搜索和查询的召回率和精确率。

在一些垂类业务场景,比如我们面向 IP 网络摄像机场景进行了场景化优化,一方面缩短了客户的开发时间,降低了接入门槛,节约了 70% 的开发时间。另一方面,精调通义模型,与客户自建相比,准召率从 50% 提升到 85%。简单易用的产品能力,能够有效提升 AI 应用的开发效率。

在智能化场景方面,阿里云企业网盘同步发布多项 AI 功能。文档 AI 速览可自动提取章节摘要,提升办公效率;视频 AI 速览实现关键帧提取与内容概要生成;以图搜图功能则支持基于视觉特征的相似图像检索,助力企业高效管理多媒体资产。

面对 AI 时代数据爆发与安全挑战,阿里云备份服务全新升级,以“智知、智管、智优”重塑数据保护:自动标签备份、跨账号统一管理、ECS 文件免费备份、CPFS 高性能备份等功能全面上线,针对 AI 训练数据、模型版本、智能体记忆库一键守护。同时,新增病毒检测与自动归档,防勒索更安心。让数据真正成为可持续发展的核心资产。

未来,阿里云存储将持续优化性能与成本,为企业提供高效、稳定、智能化的数据存储基础设施,助力 AI 应用规模化落地。

相关实践学习
利用云备份Cloud Backup实现ECS文件备份
当您已使用ECS,并在云盘中保存文件后,可能会遭遇病毒勒索,文件误删除的情况。本场景主要介绍如何使用HBR为ECS文件备份,保证数据安全并可及时恢复。
相关文章
|
2天前
|
云安全 数据采集 人工智能
古茗联名引爆全网,阿里云三层防护助力对抗黑产
阿里云三层校验+风险识别,为古茗每一杯奶茶保驾护航!
古茗联名引爆全网,阿里云三层防护助力对抗黑产
|
6天前
|
人工智能 中间件 API
AutoGen for .NET - 架构学习指南
《AutoGen for .NET 架构学习指南》系统解析微软多智能体框架,涵盖新旧双架构、核心设计、技术栈与实战路径,助你从入门到精通,构建分布式AI协同系统。
302 142
|
6天前
|
Kubernetes 算法 Go
Kubeflow-Katib-架构学习指南
本指南带你深入 Kubeflow 核心组件 Katib,一个 Kubernetes 原生的自动化机器学习系统。从架构解析、代码结构到技能清单与学习路径,助你由浅入深掌握超参数调优与神经架构搜索,实现从使用到贡献的进阶之旅。
281 139
|
2天前
|
存储 机器学习/深度学习 人工智能
大模型微调技术:LoRA原理与实践
本文深入解析大语言模型微调中的关键技术——低秩自适应(LoRA)。通过分析全参数微调的计算瓶颈,详细阐述LoRA的数学原理、实现机制和优势特点。文章包含完整的PyTorch实现代码、性能对比实验以及实际应用场景,为开发者提供高效微调大模型的实践指南。
362 0
|
3天前
|
传感器 人工智能 算法
数字孪生智慧水务系统,三维立体平台,沃思智能
智慧水务系统融合物联网、数字孪生与AI技术,实现供水全流程智能监测、预测性维护与动态优化。通过实时数据采集与三维建模,提升漏损控制、节能降耗与应急响应能力,推动水务管理从经验驱动迈向数据驱动,助力城市水资源精细化、可持续化管理。
264 142
|
1天前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
本文介绍RAG(检索增强生成)技术,结合Spring AI与本地及云知识库实现学术分析AI应用,利用阿里云Qwen-Plus模型提升回答准确性与可信度。
191 90
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
|
17天前
|
存储 关系型数据库 分布式数据库
PostgreSQL 18 发布,快来 PolarDB 尝鲜!
PostgreSQL 18 发布,PolarDB for PostgreSQL 全面兼容。新版本支持异步I/O、UUIDv7、虚拟生成列、逻辑复制增强及OAuth认证,显著提升性能与安全。PolarDB-PG 18 支持存算分离架构,融合海量弹性存储与极致计算性能,搭配丰富插件生态,为企业提供高效、稳定、灵活的云数据库解决方案,助力企业数字化转型如虎添翼!
|
2天前
|
机器学习/深度学习 人工智能 运维
智能照明稳压节能控制器,路灯节能稳压系统,沃思智能
智能照明调控柜集电力分配、远程控制与能耗管理于一体,支持自动调光、场景切换与云平台运维,广泛应用于市政、商业及工业领域,显著节能降耗,助力智慧城市建设。
180 137
kde
|
2天前
|
人工智能 关系型数据库 PostgreSQL
n8n Docker 部署手册
n8n是一款开源工作流自动化平台,支持低代码与可编程模式,集成400+服务节点,原生支持AI与API连接,可自托管部署,助力团队构建安全高效的自动化流程。
kde
242 3