云存储,为 AI 创新提速

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
云备份 Cloud Backup,100GB 3个月
简介: 面向 AI 时代的云存储,必须要服务于数据全生命周期,贯穿 AI 业务全流程,在数据准备、模型训练与部署、应用与内容生成、内容分发与协作每一个关键环节,提供稳定、安全、高性能、低成本的存储能力。

当下,如火如荼的 AI 大模型对算力和数据存储提出了更高的要求。在 6 月 1 日结束的“阿里云峰会·粤港澳大湾区”上,阿里云智能资深产品专家彭亚雄在 AI 新范式与商业创新论坛上做了《云存储,为 AI 创新提速》的主题分享。彭亚雄认为,在 AIGC 大模型的浪潮中,云存储作为数据基础设施,将在数据准备、训练与推理、应用部署、内容审核与协同等多个关键环节,发挥重要作用,助力 AI 创新加速。


一、AIGC 持续火热,存储系统面临大考  


当前,AIGC 已经成为新的热点,很多人认为,AIGC 将会大幅提升整个社会的生产效率。这里面,一些很有意思的趋势正在发生。

BPH_1357-opq455170325.jpg

首先,是获取大模型的成本开始大幅降低。以 GPT 3.5 为例,一千个 Token 的价格大概是 0.002 美金,这意味着 ChatGPT 输出 100 万个单词文本,花费不到 3 美金。基于如此低廉的成本,大众获取大模型能力的门槛在快速下降,这无疑有助于应用层的持续创新。


其次,杀手级应用(Killer App)将持续涌现,未来在社会生产中的每一个环节、每一个 APP 都有机会接入 AI 大模型进行升级改造,不仅可以大幅降低内容创作的门槛,同时也会持续提升内容创作的速度。海量高质量数据的生产效率,将会提升到一个前所未有的高度。


再次,高质量的数据将是大模型持续迭代的核心要素。众所周知,算法、算力、数据是 AI 的三大基石,而存储作为 IT 基础设施中的重要一环,本质是数据服务。


这些机遇与挑战也对存储提出了更高的要求:如何高效存储与管理海量多模态数据集; 如何在模型的开发和推理阶段提升训练效率; 如何保障 AI 生成内容合规安全; 如何便捷实现数据流转与分发; 如何保障 AI 业务永续。


二、因地制宜,云存储加速 AI 产业创新发展


面对这些挑战,云存储需要因地制宜、逐一击破:减少数据孤岛,持续降低成本,统一存储底座;持续提升存储性能,减少 GPU 等待时间;面向海量 AIGC 内容,提供一站式检测与处理能力;管理数据资产,让数据分享与协作更简单;构建高可用架构,让 AI 永远在线。阿里云存储正是从这五个方面入手,为 AI 产业创新发展加速。


1、智能数据湖,为多模态数据集与模型提供统一存储底座


AI 训练的数据集,通常具有以海量小文件为主的特点,以 LAION-5B 为例,200TB 的数据规模,文件数量高达百亿量级。因此,在数据准备阶段,为了更有效地管理海量半结构化、非结构化数据,建议采用对象存储作为统一的数据底座,构建智能数据湖。

智能数据湖.png

首先,对象存储 OSS 本身就是为海量数据而设计,可存储任意规模的数据,同时支持 Tbps 级吞吐,便于数据的上传与下载。


其次,海量 AIGC 内容、大模型,在持久化存储时,需要持续优化存储成本。对象存储 OSS 有 5 种存储类型可供选择,深度冷归档类型低至 0.75分/GB/月。客户可以把长期低频访问的数据放到 OSS 深度冷归档类型中,从而在数据增长的情况下,能够持续降低 TCO。


再次,AI 和大数据一体化已经成为趋势,以 OSS 为底座,一份数据对接多种不同计算引擎,可以很好地通过 HDFS 协议和 OSS 对象协议去对接传统的 Hadoop 应用和 HTTP 应用。


最后,对象存储 OSS 支持与高性能并行文件存储 CPFS 打通,对象存储 OSS 中的数据通过数据流动可以合并入 CPFS,实现统一命名空间的元数据管理。您可以手动或者通过自动 Lazy-load 能力,将 OSS 中的数据复制到 CPFS 中,实现通过 POSIX 文件接口高速访问 OSS 中的数据。


2、高性能文件存储,加速 AI 训练与推理效率


数据完成预处理后,再进行 AI 训练和推理,为了提高整体作业效率,建议采用高性能文件存储搭配 PAI-灵骏智算服务。

高性能文件存储.png

对于中大型规模的客户,推荐使用并行文件存储 CPFS,CPFS 基于端到端的 RDMA 网络、全对称的元数据服务器架构,单集群能力可以达到 2TB/s 吞吐、3000 万 IOPS,能很好地满足海量小文件处理需求。并且 CPFS 和灵骏智算一样支持多种售卖形态,包括公共云 CPFS、CPFS 全托管(灵骏智算)、CPFS 混合云等。在不同的业务场景下,既可以选择资产自持的模式,也可以选择公共云和智算模式,将 CAPEX 转换成 OPEX,以云的方式,按量付费灵活使用。


弹性文件客户端(Elastic File Client,简称“EFC”),通过计算端元数据缓存和创新的 lease 机制,提升 ls\du 等常见元数据操作速度 10 倍,可媲美本地 EXT4 性能,且多个客户端的数据保持强一致。弹性文件客户端与 Fluid 配合,在数据集训练场景下,相较 NFS 客户端,整体训练耗时缩短 87%。


面向一些小规模业务场景,尤其是面向 serverless 场景、从小的数据集开始训练的客户,我们也有极速型 NAS 可供选择。为了更好地服务这些客户,提升训练效率,阿里云存储将会把极速 NAS 吞吐性能提升 330%,其中小规格起步高吞吐从 150MBps 提升至 500MBps,整体吞吐上限从 1200MBps 提升至 4000MBps。


3、智能媒体管理,一站式完成 AIGC 内容处理

得益于 AI 模型的不断精进,AI 正大步迈入数字内容生产领域。目前,AIGC 已在写作、绘画、作曲多项领域达到“类人”表现。在 AI 模型部署和应用阶段,厂商必须在安全合规的基础上稳步实现 AIGC 应用落地、推进产品迭代。海量的 AIGC 内容,可以通过智能媒体管理 IMM 来做预处理和审核。

智能媒体管理.png

智能媒体管理 IMM 是一个与云存储原生集成的平台,这意味着无需移动数据就可以自动地进行处理。比如,IMM 支持一键关联对象存储,用户无需额外开发,即可支持文档处理、内容识别与检测等多种能力。IMM 具备完备的内容审核能力,无论是文本、图片还是视频,能够面向多模态数据进行多种内容审核,帮助企业更好地应对监管需求。


同时,IMM 提供面向场景的元数据管理能力,简化客户场景应用的设计复杂度,以便快速构建应用。最为关键的一点是,IMM 是一个 serverless 的服务,无需运维,让客户可以更加专注自己的业务。


4、网盘与相册服务,让 AIGC 内容协同与分享更简单

AIGC 生成的海量数据,在经过内容审核后需要流转起来,在组织和组织之间、人与人之间进行协同和分享,方能产生更大的价值。

PDS.png

通过网盘与相册服务 PDS,可以让 AIGC 内容协同、数据资产管理和内容分享更为简单。PDS 包含企业版和开发者版本,是为客户提供的面向企业、团队与个人的数据资产管理开放平台,提供一站式数据存储、分析、协同、分享和 AI 处理的能力。时至今日,PDS 在云上支撑了十亿级别的客户管理,具备管理百 EB 级别的数据规模的能力。深度集成 AI 能力的 PDS,支持数千种图片标签分类,加速 AIGC 内容预处理。


同时,PDS 支持开箱即用,用户既可以基于企业网盘这种 SaaS 服务,在企业内部快速构建简单高效易用的数据资产管理平台,也可以通过网盘的中间件去构建面向 C 端的个人网盘。所有的功能支持 OpenAPI 开放,帮助用户快速构建和设计适合自身的产品形态。


PDS 支持组织内外分享,冷热数据分发自动路由,所以对于拥有海量数据的企业而言,当需要数据在组织内部和外部进行流转、打通不同云盘之间数据时,PDS 会是一个非常好的选择。


今年阿里云存储也会在 PDS 中集成更多的大模型能力,我们希望让存储在 PDS 里的数据更加智能化,提升数据管理效率,为企业办公和个人开发者提供更多开箱即用的 AI 能力。


5、高可用 SLA 与容灾能力,让 AI 一直在线

随着 AI 能力的普及,可以预见的是,AI 将成为 7*24 小时的在线服务,如何保证它一直在线,是所有负责系统架构的人都要考虑的关键问题。在数据存储底座这一块,OSS 同城冗余存储类型,提供了业界领先的 99.995% 服务可用性 SLA,每十万次请求,失败次数不超过 5 次,OSS 的标准、低频、归档存储,都支持同城冗余的产品形态。

OSS SLA.png

OSS 同城冗余存储类型,在全球 11 个地域提供服务,在 6 月底,OSS 将发布本地冗余 Bucket 产品化升级到同城冗余 Bucket 的能力。客户可以以服务化的方式,将原来本地冗余的 Bucket 自助升级到同城冗余的 Bucket,从而提升整个系统架构的可用性。


如果客户担心同城冗余的 Bucket,数据仍然在同一个地域,难以抵御地域级别的灾害,阿里云存储也提供了跨地域复制的容灾能力。OSS 跨区域复制 RTC 能力,可以让 99.99% 的数据在 10 分钟内,在不同地域之间完成复制,保持近实时同步。在实际线上生产环境中,有一家游戏厂商通过灵活运用 RTC 的能力,99.999% 的数据在 10 秒内完成了不同地域间的数据复制,相当于在对象存储层面,构建了跨地域秒级 RPO 的一个容灾架构,对提升业务连续性起到非常关键的作用。


前面提到的这些能力,无论是数据湖、高性能文件存储,还是智能媒体管理、网盘与相册服务以及容灾高可用能力,都已经在 AIGC 业务场景中,得到了广泛的客户认可和使用。中国某 AIGC 艺术创意灵感平台,使用对象存储 OSS 构建统一数据湖底座,存算解耦带来计算与存储的弹性扩展能力,一份数据对接不同计算引擎,通过 CPFS 与 OSS 数据流动,在训练效率提速 300% 的同时,持续为客户优化存储成本。

0T2A2997-opq455178454.jpg

面向 AI 时代的云存储,必须要服务于数据全生命周期,贯穿 AI 业务全流程,在数据准备、模型训练与部署、应用与内容生成、内容分发与协作每一个关键环节,提供稳定、安全、高性能、低成本的存储能力。在新的 AI 浪潮下,阿里云存储将继续努力,帮助客户实现 AI 创新加速,助力客户业务持续增长。

相关文章
|
2月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
37950 20
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试中AI的融合与创新
随着人工智能(AI)技术的飞速发展,其在软件测试领域的应用逐渐深入。本文将探讨AI如何革新传统的自动化测试流程,提高测试效率和准确性。通过分析AI技术在缺陷预测、测试用例生成、以及测试结果分析等方面的应用,揭示AI对提升软件质量保障能力的重要性。同时,文章还将讨论AI在自动化测试中面临的挑战和未来的发展方向。
|
27天前
|
机器学习/深度学习 人工智能 自然语言处理
Chat AI领域涵盖了众多创新的模型
【7月更文挑战第24天】Chat AI领域涵盖了众多创新的模型
51 13
|
25天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的创新应用
随着人工智能技术的飞速发展,其在医疗健康领域的应用也日益广泛。本文将从AI技术在疾病诊断、治疗方案制定、患者监护等方面的作用出发,探讨其对医疗健康领域的影响和价值。同时,也将分析AI技术在医疗健康领域应用中面临的挑战和未来发展趋势。
|
30天前
|
人工智能 自然语言处理 API
深度融合与创新:Open API技术促进AI服务生态构建
【7月更文第21天】在数字化转型的浪潮中,人工智能(AI)已从概念探索走向实际应用,深刻改变着各行各业。Open API(开放应用程序接口)作为连接技术与业务的桥梁,正成为推动AI服务普及和生态构建的关键力量。本文将探讨Open API技术如何通过标准化、易用性和灵活性,加速AI服务的集成与创新,构建一个更加丰富多元的AI服务生态系统。
44 2
|
1月前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI在IT管理中的创新应用
【7月更文挑战第15天】本文探讨了人工智能(AI)如何革新传统的IT运维模式,通过智能自动化、实时分析和预测性维护,显著提高运维效率和准确性。文章将深入分析AI技术在故障检测与解决、资源优化配置以及安全监控等方面的具体应用案例,并讨论实施AI时可能遇到的挑战和解决方案。
71 2
|
2月前
|
人工智能 数据可视化 物联网
AI时代的创新工具:如何利用AI生成独具个性的XMind思维导图?
本文介绍了如何用GPT生成Markdown代码制作思维导图,然后用xmind导入并修改样式。首先在Typora中编写Markdown,如示例所示,保存为.txt文件。接着在xmind中打开该文件,即可看到思维导图。通过xmind可调整形状和颜色。这种方法能节省时间,提供丰富图形库,有助于信息组织和呈现。作者木头左期待你的点赞、收藏和关注!
AI时代的创新工具:如何利用AI生成独具个性的XMind思维导图?
|
2月前
|
机器学习/深度学习 人工智能 算法
【AIGC】揭秘驱动AI创新的关键力量:领军者的角色
【AIGC】揭秘驱动AI创新的关键力量:领军者的角色
84 1
|
2月前
|
人工智能 安全 搜索推荐
AI已经深深地改变了我的日常生活,带来了许多便利和创新
【6月更文挑战第20天】AI提升工作效率,智能助手处理日常任务,释放创意空间;娱乐中个性化推荐节省选择时间,增强游戏体验;然而,隐私安全风险增加,数据保护成关注点;工作岗位变迁,技能更新必要,以应对AI带来的变革。需平衡便利与风险,推动AI负责任发展。
109 5
|
1月前
|
人工智能 运维 Serverless

热门文章

最新文章