大规模存储基础设施对人工智能的要求

简介: 存储基础设施采用人工智能技术提高了容量和性能方面的要求。对于采用人工智能或机器学习的存储环境来说,存储容量增长到几十TB甚至数百TB的情况并不少见。

存储基础设施采用人工智能技术提高了容量和性能方面的要求。对于采用人工智能或机器学习的存储环境来说,存储容量增长到几十TB甚至数百TB的情况并不少见。尽管提供全闪存阵列产品的供应商声称,这么庞大的数据无法全部存储在全闪存阵列上,但由于它们具有的并行性质,大多数存储环境从硬盘获得的服务几乎与从闪存获得的服务一样好。


要求1–高性能网络


对于人工智能/机器学习环境来说,创建使用内部部署或直接连接存储(DAS)的计算服务器集群的情况并不少见。即使共享存储在使用容量和将工作负载更均匀地分配给计算节点方面效率更高,很多组织仍然愿意牺牲这些效率来消除计算节点与共享存储之间创建的网络延迟。


NVMe光纤网络(NVMe-oF)是专门为基于内存的存储设备(如闪存和非易失性内存)设计的下一代网络。它提供的延迟几乎与DAS NVMe相同。NVMe的深度命令和队列深度使其也非常适合高度并行化的工作负载,并且人工智能/机器学习可能是所有工作负载中最为并行的技术。NVMe-oF是专门为内存存储而设计的,但它也是为人工智能/机器学习量身定制的。


要求2–共享存储


如果NVMe-oF可以解决计算与存储之间的延迟问题,那么它将启用第二个要求,即共享存储。通过NVMe-oF连接的共享存储解决方案,工作负载可以受益于共享存储的所有自然属性。首先,所有节点都可以访问所有数据,这意味着工作负载可以更均匀地分配其计算负载,这也意味着具有图形处理单元(GPU)的节点可以访问所有数据。由于GPU的价格比CPU贵得多,因此让GPU处理更多的负载是当务之急,而共享存储则使这一工作变得更加容易。


在衡量数十个甚至几百PB的工作负载容量需求时,存储效率的提高都可以节省大量成本。在具有用于每个计算节点的专用硬盘的集群中,IT团队无法轻松地将可用存储容量重新分配给集群中的其他节点。直接连接存储(DAS)模型中缺乏资源池,这也意味着组织无法有效使用制造商推向市场的大容量硬盘。现在,具有双重用途的节点(计算和存储)可能会安装12个或更多的16TB的闪存或18TB的硬盘,而单个节点可能无法有效使用。如果人工智能/机器学习存储体系结构从专用服务器中集中使用这些硬盘,则可以对其进行更精细的分配。人工智能/机器学习工作负载不仅需要扩展以满足容量需求,而且还必须可以直接访问存储节点以满足性能需求。


要求#3–分层存储


鉴于人工智能/机器学习数据集的规模,分层存储几乎是必须的措施,因为配置数十PB的闪存设备太昂贵了。事实上,某些人工智能工作负载并不遵循80/20规则,在任何给定时间,80%的数据都是不活跃的。这些工作负载可以从100%休眠状态变为100%活跃状态。尽管如此,它们还是高度并行的,并且数百个性能较低的机械硬盘都可以同时满足工作负载的需求,因此应该可以提供这些工作负载所需的性能。如果没有,他们可以在当前网络技术允许的范围内尽快传送数据。


要求#4–并行访问


并行访问意味着存储基础设施中的每个节点为人工智能/机器学习集群中的每个计算节点提供对其所需数据的直接访问。单个控制节点不会成为瓶颈。高级别的并行性对于人工智能/机器学习至关重要,因为可能需要同时访问存储池的计算节点数量众多。正是这种并行性使吞吐量能够使硬盘在人工智能/机器学习存储基础设施中成为一个组件。并行文件系统几乎总是需要客户端或代理,但是该代理除了提供并行访问之外,还经常需要比典型NFS协议更少的开销。


要求#5 –多种协议


尽管需要并行访问进行处理,但另一个要求是多协议访问,这对于将数据提取到存储基础设施中特别有帮助。许多人工智能和机器学习项目都从物联网(IoT)设备接收数据,这些设备通常需要与其附带的协议进行通信。许多设备通过服务器消息块(SMB)或网络文件系统(NFS)进行通信,少数设备使用S3存储桶。更重要的是,几乎没有人使用原生并行文件系统客户端。


要求#6 –高级元数据处理


人工智能/机器学习的工作负载是元数据繁重的负载,尽管通常不是因为它们像媒体和娱乐的工作负载那样使用丰富的元数据。元数据在人工智能/机器学习工作负载中的重要性来自其通用文件的数量。在大多数情况下,数十亿至数百PB的人工智能工作负载由数十亿个文件组成。这些文件中的每个文件都有元数据,就像其他工作负载一样,大部分IO事务都来自元数据。人工智能/机器学习存储基础设施必须管理元数据,以便即使文件数量增加,它也可以维持系统的性能。元数据需要在整个存储集群中进行分配,以便所有节点都可以参与其管理。供应商可能还会查看每个存储节点中闪存上的存储元数据,以确保系统始终能够响应。


结论


人工智能/机器学习工作负载与组织过去可能运行的其他工作负载有着根本的不同。早期的人工智能/机器学习项目已经依靠直接连接存储(DAS)进行数据存储。问题在于直接连接存储(DAS)无法平均分配负载,这对于每个人工智能工作负载的GPU数量增加至关重要。而且,直接连接存储(DAS)效率很低,复制和移动数据所花费的容量和时间上的浪费将会消除机械硬盘的价格优势。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
6月前
|
人工智能 弹性计算 算法
一文解读:阿里云AI基础设施的演进与挑战
对于如何更好地释放云上性能助力AIGC应用创新?“阿里云弹性计算为云上客户提供了ECS GPU DeepGPU增强工具包,帮助用户在云上高效地构建AI训练和AI推理基础设施,从而提高算力利用效率。”李鹏介绍到。目前,阿里云ECS DeepGPU已经帮助众多客户实现性能的大幅提升。其中,LLM微调训练场景下性能最高可提升80%,Stable Difussion推理场景下性能最高可提升60%。
126172 268
|
6月前
|
机器学习/深度学习 人工智能 运维
智能运维:AI在IT基础设施管理中的角色
【5月更文挑战第31天】本文探讨了人工智能(AI)如何革新传统的信息技术(IT)运维领域,通过智能化解决方案提升效率和预防故障。文章将分析AI技术的具体应用,如机器学习、自动化和预测性分析,并讨论这些技术对运维专业人员的影响及未来的发展趋势。
|
4月前
|
机器学习/深度学习 数据采集 人工智能
智能运维:利用AI技术优化IT基础设施管理
在数字化时代,IT基础设施的复杂性与日俱增。面对海量的数据和设备,传统的运维方法显得力不从心。本文将探讨如何通过人工智能(AI)技术实现智能运维,从而提高IT基础设施的效率、稳定性和安全性。我们将深入分析AI在故障预测、自动化处理和安全管理中的应用实例,并讨论实施智能运维时面临的挑战与解决策略。 【7月更文挑战第29天】
135 2
|
4月前
|
存储 人工智能 运维
AI基础设施!产品力全球第二
AI基础设施!产品力全球第二
83 2
|
5月前
|
人工智能 弹性计算 Cloud Native
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(1)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
109 2
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(1)
|
4月前
|
机器学习/深度学习 人工智能 运维
智能化运维:如何利用AI和机器学习优化IT基础设施管理
随着技术的快速发展,传统的运维方法已无法满足现代企业的需求。本文将深入探讨如何通过人工智能(AI)和机器学习(ML)来革新IT基础设施的管理方式,提升效率并降低成本。我们将从实际案例出发,分析AI与ML在智能监控、故障预测、自动化修复等方面的应用,并讨论实施这些技术时面临的挑战与解决策略。
74 1
|
5月前
|
人工智能 异构计算 算法
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(2)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(2)
|
5月前
|
人工智能 Cloud Native 数据库
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(3)
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
《阿里云产品四月刊》—一文解读:阿里云 AI 基础设施的演进与挑战(3)
|
5月前
|
存储 人工智能 自然语言处理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
|
5月前
|
存储 人工智能 Kubernetes
[AI OpenAI] 保护前沿AI研究基础设施的安全
概述支持OpenAI前沿AI模型安全训练的架构。
[AI OpenAI] 保护前沿AI研究基础设施的安全