一文总览阿里云存储产品年度升级!

简介: 一文总览阿里云存储产品年度升级!

近日,在“回顾·向新:AI浪潮下的数据存储进化”年度回顾上,阿里云总结了过去一年存储产品在AI领域的研究成果,并分享了在“AI领域”和“高可用底层架构”方面的双管齐下策略。同时,会上分享的CPFS智算版针对模型训练场景进行了全链路性能升级,提供20TB级别的吞吐和3亿IOPS最大性能,将成为AI时代大模型训练任务最具性价比的存储选择。



云存储读写性能

再突破,CPFS支持更快大模型训练


在大型模型训练中,尤其是面对10万GPU的海量计算需求时,存储系统的性能和稳定性至关重要。阿里云的CPFS作为高性能文件存储解决方案,为GPU提供了20TB级别的吞吐和3亿IOPS最大性能,从而显著提升了训练效率。


此外,借助400Gb/s网卡以及RDMA通信的能力,CPFS单客户端吞吐提升至25GB/s,支持更大及更加频繁的Checkpoint读写;提供burst I/O稳定有效吞吐/低延时,单机提供15GB/s可线性扩展的分布式读缓存能力;支持100GB/s高带宽和OSS的数据流动。CPFS对全链路进行了性能提升,为LLM训练提速。


CPFS能力全面升级,助力企业加速AI发展



OSS端到端链路

升级,支持云上构建两万+数据湖


目前已有超过2万个数据湖基于OSS构建,其中大部分为AI数据湖。会上,阿里云对象存储OSS针对AI领域进行了多项能力更新。本年度,OSS推出OSS Connector for AI/ML,相比传统挂载方式,加载25.6万张图片数据时性能提升14倍。


OSSFS 1.91.3版本针对推理模型文件加载优化,9.3GB大文件加载速度提升3.6倍,10万个文件list性能提升6倍。在服务端,OSS发布资源池QoS能力,支持多个Bucket共享池化性能,并可针对单Bucket和请求者RAM账号进行QoS设置,实现削峰填谷,提升资源利用率。同时,OSS加速器产品能力优化,起步容量降低99%,吞吐密度提升50%,最大性能提升2.5倍,达到100GBps。




安全是存储根基,高可用再升级


在安全方面,CPFS持续增强稳定安全和数据保护能力,包括通过Cloud Backup进行备份,应对单AZ故障和数据误删、勒索病毒等事故;新增日志审计,安全访问可追溯;提供目录级配额,简化数据管理;确保安全挂载和IO鉴权,实现端到端的数据隔离;通过Access Point简化数据访问权限管理。



此外,为了协助客户搭建和管理业务高可用架构,阿里云存储针对企业云上资源提供了一系列数据灾备方案,包括企业灾备管理服务数据灾备中心BDRC,SAAS化灾备服务云备份以及丰富的IAAS层数据灾备的能力,满足从开发者到跨国企业的多样化数据管理需求。




助力千行百业,领跑AI时代


过去一年AI渗透进各行各业,企业为了构建高效的AI 系统,采集、处理和存储了海量的多模态数据,来加速模型的训练和推理应用,这背后离不开阿里云的助力。


月之暗面:在基础大模型领域,CPFS为月暗提供数Tbps级别的吞吐和毫秒级别的读写延时,满足模型checkpoint、多模态数据集和训练日志等场景下极致性能的需求,帮助月暗高效处理和分析大量请求和数据,提升模型的训练效率;


小鹏汽车:在小鹏汽车智算模型训练场景,存储产品结合“扶摇”智算集群的优化,使得其自动驾驶模型训练效率提升了170倍,存储吞吐效率提升了40倍,极大地加速了技术研发进程;


小红书:对于拥有3.2亿月活跃用户的小红书而言,阿里云的对象存储服务OSS为其提供了超过20Tbps的吞吐能力,保障了海量用户生成内容的处理速度,并通过多存储类型组合方案实现了成本与性能的最佳平衡。


阿里云智能资深产品专家彭亚雄表示:2025年,阿里云依然会紧密围绕AI智算赛道,聚焦稳定、安全、性能、成本、体验等主要方向,持续产品的创新和进化。让每一家公司,都顺利的从数字化转型,过渡到智能化创新的Data+AI公司,加速业务发展和创新。


/ END /

相关文章
|
存储 缓存 编解码
【FFmpeg 视频播放】深入理解多媒体播放:同步策略、缓冲技术与性能优化(一)
【FFmpeg 视频播放】深入理解多媒体播放:同步策略、缓冲技术与性能优化
592 0
|
监控 安全 自动驾驶
基于python的室内老人实时摔倒智能监测系统-跌倒检测系统(康复训练检测+代码)
基于python的室内老人实时摔倒智能监测系统-跌倒检测系统(康复训练检测+代码)
|
8月前
|
存储 关系型数据库 MySQL
客户说|乐檬零售引入PolarDB:查询性能百倍提升,稳定支撑超10万家门店
客户说|乐檬零售引入PolarDB:查询性能百倍提升,稳定支撑超10万家门店
297 2
客户说|乐檬零售引入PolarDB:查询性能百倍提升,稳定支撑超10万家门店
|
7月前
|
云安全 存储 安全
阿里云安全体检功能深度评测报告
本次体检通过深度扫描发现了4类安全隐患:高危端口暴露、未修复的Log4j2漏洞、OSS存储桶权限错误。针对这些问题,我们采取了具体修复措施,如限制源IP、热更新参数等。体检项目在安全组可视化、漏洞修复指引等方面表现出色,但也存在容器安全检测不足等问题。建议增加一键阻断功能和OpenAPI接口,优化误报反馈机制,并添加合规检测模块。总体而言,阿里云安全体检在风险发现效率上表现优异,建议与云防火墙等产品联动,形成动态防御体系。
|
11月前
|
存储 监控 容灾
容灾备份的具体操作步骤
【10月更文挑战第28天】容灾备份是指为了防止因自然灾害、人为破坏、系统故障等原因导致数据丢失或业务中断,而提前采取的一系列数据备份和恢复措施。
|
弹性计算 关系型数据库 MySQL
centos7 mysql安装及配置
本文详细介绍了在阿里云服务器ECS上通过yum源安装MySQL 8.0.12的过程,包括更新yum源、下载并安装MySQL源、解决安装过程中可能遇到的问题等步骤。此外,还介绍了如何启动MySQL服务、设置开机自启、配置登录密码、添加远程登录用户以及处理远程连接异常等问题。适合初学者参考,帮助快速搭建MySQL环境。
1187 8
centos7 mysql安装及配置
Missing script: “serve“ 若依刚开始启动不了,需要npm下载资料
Missing script: “serve“ 若依刚开始启动不了,需要npm下载资料
|
机器学习/深度学习 监控 算法
开源计算机视觉库OpenCV详解
开源计算机视觉库OpenCV详解
279 3
|
Docker 容器
使用 vitepress + docker + oneDrive 等实现本地知识库 预览+备份
使用 `语雀`、`notion` 等文档知识库,在使用起来比较方便,但是如果需要本地备份,就需要借助一些工具。本文介绍使用 本地预览框架 `vitepress` 和 同步网盘 `oneDrive` 来实现本地知识库 预览+备份。
243 0
|
存储 人工智能 安全
探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?
在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能GPU扮演着至关重要的角色。在这个领域,英伟达的H100无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理任务。
1248 0