面向 AI 的存储基础设施升级

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
云备份 Cloud Backup,100GB 3个月
简介: AI 与大数据融合化是大势所趋,企业可以通过大数据技术收集和存储大量数据,进行一站式计算分析和数据治理,以便安全、精确、高效、智能地应用数据。在这个话题中,我们将会介绍阿里云全栈存储数据基础设施如何支撑 AI 场景的创新与实践,并带来全新一代存储产品的重磅发布,帮助企业高效数字创新。

分享人:Alex Chen,阿里云智能集团弹性计算、存储产品线产品负责人

在AI浪潮的推动下,算力的增长显而易见,这一点不仅体现在分析师的报告中,也反映在市场需求的持续攀升上。根据统计数据,过去12个月内,计算能力实现了三位数的增长,增速超过300%。随着算力的迅猛提升,AI所需的存储数据量也在同步增长。

在云栖大会的主论坛中,我们也听到了关于强化学习等AI模型和技术的新进展。这些进步所需的数据,不仅仅是实际采集的数据,还包括通过仿真模拟生成的数据。因此,AI是一个数据驱动的行业,其创新离不开海量的、高质量的数据。只有拥有这些数据,我们才能训练出精准的模型,构建出实用的AI应用。

面对海量的数据,存储行业面临着诸多挑战,包括性能、成本、数据治理以及对数据的安全合规使用等。在大数据时代,如何挖掘数据的潜在价值,将这些挑战一一克服,是我们必须思考的问题。阿里云存储产品线从“Storage for AI”和“AI in Storage”两个主要方向进行演进。

image.png

Storage for AI旨在通过存储产品支持更多AI应用的高效创新。

首先是“Any Performance”。在存储行业中,以往购买存储系统时,其存储架构往往针对某一特定性能进行优化。例如,有的存储系统擅长支持OLTP工作负载,具备高IOPS和低延迟的特点,但在处理大文件时可能表现平平;有的则擅长处理海量对象存储,但在处理小规模的KV数据时性能较弱。我们认为,一个综合的存储平台应该能够为每一个使用场景提供极致的性能优化,确保在各种数据使用场景下都能保持最佳性能。

其次是“Any Interface”。存储系统有多种接口,如快速的block接口、文件接口,包括NFS、SMB等,适用于Windows、Linux等操作系统,以及object接口,并通过RESTful API访问,。在AI和大数据应用中,客户的应用场景多样,有的基于文件接口,有的已经改造为使用RESTful API访问对象存储。而同样的数据应该能够支持多种协议访问,不应被任何一种协议所绑定。

第三个是“Anywhere”。以往,由于数据传输速度相对较慢,当数据量巨大时,通常需要将算力部署在存储附近。然而,随着AI技术的蓬勃发展,大量高性能GPU在高性能网络构建下所需的电力资源不可能在任何可用区或区域都进行部署。因此,算力通常只能在固定的几个点进行部署。这就带来了新的挑战:数据可能分布在任何地方,如何高效地将数据传输到算力所在的位置,使算力得到充分利用,避免闲置?同时,在数据传输过程中如何保证数据的准确性和完整性,以及如何将数据从温度较低的区域传输到算力密集型的区域,都是我们需要解决的问题。

最后一个是“Any Data”。十年前,企业主要关注的是自身产生的数据。随后,企业开始越来越重视从客户端(C端)收集的数据。在大数据时代与AI融合的时代,我们需要管理的数据类型更加多样,可能包括购买的数据、仿真数据或从其他地方收集的数据。这些数据的安全治理和管理带来了对存储产品的更多需求和挑战。

在另一个方向“AI in Storage”上,AI也能够助力基础设施的迭代。从“Any AI Healing”的角度来看,我们利用智能方法对大规模的分布式存储系统进行预判性诊断,识别出哪些部件、环节或节点可能出现性能衰减或未来可能发生故障的情况。对于这些可预期的或AI能够发现的故障节点,我们能够主动发现和修复。此外,当故障发生时,AI能够快速定位庞大的系统中的问题所在。

在AI Management层面,我们致力于帮助客户和用户更好地管理他们的存储基础设施,包括存储容量、性能预期等方面。同时,我们还利用AI方法帮助客户管理数字资产以及解析数据,例如通过内容解析来发现潜在的恶意病毒或安全问题,并主动进行排除。

最后是存储方面,我们将与 Serverless 的GPU 或向量索引能力进行集成,通过 API 的方式助力更多的AI应用。通过基础设施产品,用户可以快速构建 AI 应用,例如将非结构化数据转化为结构化数据,从而构建一个简单易用的RAG 产品。

面向 AI 的存储基础设施升级

面向多种计算引擎& AI框架,OSS实现端到端高性能

去年,单个 OSS 客户在单个region内可达到100Gbps的性能吞吐能力。然而,许多客户并未能充分利用这一高性能,主要瓶颈在于终端应用层面。因为只有端到端的优化才能真正发挥100Gbps的性能潜力。部分客户仍采用文件访问方式处理对象存储,针对这种情况,我们进行了性能优化,包括元数据处理的改进和读写性能的提升(如OSSFS的升级)。

此外,针对那些访问频率极高的热点数据,我们推出了OSS加速器的升级版本。以往,OSS加速器主要针对大数据场景,数据规模较大,起步容量通常为TB级别。现在,我们针对AI场景,将加速器的起步容量降低至50 GB,并提升了性能密度,以更好地满足AI业务需求。

在AI的Connector和Python SDK方面,我们也进行了大幅优化,使客户能够基于OSS轻松进行数据预处理。许多AI应用在进行预处理时需要模型支持,通过OSS Connector或SDK直接访问OSS,可以显著提升性能。

在生产环境中,许多客户将大数据分析和 AI 应用相结合。他们构建的数据湖在存储带宽能力上从以前的几百Gbps升级到数十 TBps 。由于客户的应用场景多样,优先级也各不相同,因此,我们根据客户需求,在客户实际生产环境中实现了功能升级:将多个存储桶整合到一个资源池中,并实现了任务级别的服务质量(QOS)控制。这样,客户就可以动态地为 AI 应用、离线批量处理业务、搜索推广业务等分配所需的存储吞吐带宽。这一改进帮助客户更好地利用底层数据产品支撑,实现了AI 和大数据的一体化。

文件存储CPFS,满足指数级增长的AI智算所需能力

接下来将分享这两年存储行业所面临的挑战,特别是大型基模训练在10万GPU规模场景下对存储的需求。CPFS 可以视为高性能梯队的一员,它不仅能够容纳邻近GPU 的本地化缓存,构成分布式缓存系统,还拥有高性能的并行文件系统,以满足客户对小文件和大文件的读写需求。这种卓越的性能使得客户在写入检查点时,能够将耗费数千个GPU 小时训练的模型检查点迅速卸载到分布式高性能存储层,从而大幅减少 GPU的闲置时间。

CPFS 与对象存储 OSS紧密相连,能够顺畅地实现数据的上下流通、冷热加载、预加载等操作,根据计算需求智能调配所需的数据和算力,并将计算结果存储在对象存储中,以便进行更长期的保留或分发。

数据流动与智能化数据管理

对象存储OSS与CPFS之间的数据流动至关重要。如何高效地将数据根据需求流向高性能层级?又如何将高性能层级的数据流向分布式缓存?这是我们需要整体考虑的交互方案。然而,由于算力资源分布不均,电力和计算卡等资源稀缺,我们需要更加高效地将所需数据从存储移动到算力所在的位置,无论是从上海到内蒙古,还是反向移动,都需确保数据的流畅传输。

OSS数据索引支持AI检索

上述内容讲述了底层基础设施如何支持 AI 业务。同时,我们也将AI能力融入存储产品中,使其升级为智能存储。以往,我们有九种元数据可以做索引,如根据文件的创建时间、更新时间、对象大小等标签进行索引。但现在,通过向量索引和AI嵌入技术,我们能够根据内容更好地进行结构化处理,将标量索引与向量索引相结合,使客户能够更快速地利用向量和索引能力来构建RAG(检索增强生成)模型或AI助手。

基于通义大模型构建网盘多模态AI能力

接下来,将通过demo来展示这一能力。例如,在企业网盘中,我们可以根据对象桶中的数据快速进行内容搜索。通过自然语言查询,用户可以找到对应的图片或视频。此外,我们还可以使用简单的方法构建基于对象的知识库,或制作简化的RAG应用。最后,通过copilot功能,客户可以使用自然语言查询内容、提出问题或查询内部信息,并获得相应的答案。以上所有努力都是为了方便客户调用产品的API,包括无服务器的GPU资源,与OSS紧密结合,形成简单的智能AI助手或RAG应用。

全球最完整的储存产品和服务

综上所述,今天的分享聚焦于整个存储产品家族的全面升级。在公共云领域,提供了快速的文件存储、对象存储以及表格存储解决方案。而在客户的数据中心(On-premise)环境,我们也提供了丰富的混合云存储选项。这两者之间,数据迁移(或数据流通)扮演着至关重要的角色。此外,在存储层的上方,我们还统一提供了容灾备份、媒体管理以及网盘服务等,旨在为客户打造全方位的数据密集型解决方案。

未来的发展方向将主要聚焦于两个维度:一是打造专为AI设计的存储解决方案;二是将AI能力融入存储产品中,推动存储向智能普惠的新阶段迈进。

目前,阿里云平台上已经承载了超过500万来自全球各地的客户数据。这不仅仅包括传统企业的数据上云需求,还涵盖了互联网云原生的业务创新。同时,也有众多AI原生的创业公司正在基于我们的基础设施平台进行创新和价值创造。

 

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
9天前
|
人工智能 搜索推荐 安全
数百名研发人员用通义灵码,33%新增代码由AI生成,信也科技研发模式焕新升级
目前,信也科技数百名研发人员正在使用通义灵码,周活跃用户占比70%,新增代码中有33%由通义灵码编写,整体研发效率提升了11%,真正实现了数百研发人员开发效能的全面提升。
|
14天前
|
存储 机器学习/深度学习 人工智能
【AI系统】指令和存储优化
在AI编译器底层,除了广泛应用的循环优化外,还存在指令优化和存储优化两大类。指令优化通过利用硬件提供的特殊加速指令,如向量化和张量化,提高计算效率;存储优化则关注如何高效管理数据存储与访问,减少延迟,提高整体计算效率。这些技术共同作用,极大提升了AI系统的性能。
24 1
|
20天前
|
数据采集 人工智能 DataWorks
限时优惠体验!DataWorks数据治理中心全新升级为数据资产治理
DataWorks进行全面升级,从数据治理中心转型为数据资产治理,强调业务视角下的数据分类与管理,引入Data+AI全链路数据血缘追踪,提升数据质量和安全性,促进跨部门协作。同时,提供限时优惠活动,助力企业高效利用数据资产。
276 1
|
1月前
|
人工智能 Cloud Native 算法
|
2月前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
674 1
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
1月前
|
人工智能 算法 程序员
程序员如何借势AI提高自己:从高效工作到技能升级的全面指南
【11月更文挑战第4天】程序员可以通过以下几个方面借势 AI 提升自己:1. 日常工作效率提升,包括智能代码编写与补全、自动化测试与调试、项目管理与协作;2. 技能学习与升级,涵盖基础知识学习和深入技术研究;3. 思维拓展与创新能力培养,激发创意灵感和培养批判性思维。
|
1月前
|
机器学习/深度学习 人工智能 编解码
全面升级的“新清影”,给AI生成视频带来了哪些新玩法?
智谱清言App近日上线了“新清影”,并开源了最新的图生视频模型CogVideoX v1.5。相比之前的版本,“新清影”在视频分辨率、生成速度、多通道生成能力和模型性能等方面均有显著提升,支持生成10秒、4K、60帧的超高清视频。此外,即将上线的音效功能将进一步提升视频的逼真度和实用性,标志着AI视频创作进入“有声时代”。这些改进使得内容创作变得更加高效和便捷,为创作者提供了更多可能性。
|
2月前
|
存储 消息中间件 人工智能
ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用
本文整理自2024年云栖大会阿里云智能集团高级技术专家金吉祥的演讲《ApsaraMQ Serverless 能力再升级,事件驱动架构赋能 AI 应用》。
131 10
|
1月前
|
存储 人工智能 安全
【通义】AI视界|苹果停止签署iOS 18.0.1,升级用户无法降级
本文由通义自动生成,涵盖24小时内精选的五条科技资讯:奥特曼谈OpenAI未来发展方向,ChatGPT新搜索功能上线遇故障,Perplexity AI选举搜索面临挑战,马斯克谈特斯拉造手机的可能性,以及苹果停止签署iOS 18.0.1。更多精彩内容,欢迎访问通通知道。
|
2月前
|
存储 人工智能 运维
阿里云AI基础设施产品力全球第二
国际研究和咨询公司 Forrester 发布最新全球AI基础设施解决方案研究报告《The Forrester Wave™: AI Infrastructure Solutions, Q1 2024》,阿里云凭借领先的产品性能,获评AI基础设施服务产品力全球第二。