分享人:Alex Chen,阿里云智能集团弹性计算、存储产品线产品负责人
在AI浪潮的推动下,算力的增长显而易见,这一点不仅体现在分析师的报告中,也反映在市场需求的持续攀升上。根据统计数据,过去12个月内,计算能力实现了三位数的增长,增速超过300%。随着算力的迅猛提升,AI所需的存储数据量也在同步增长。
在云栖大会的主论坛中,我们也听到了关于强化学习等AI模型和技术的新进展。这些进步所需的数据,不仅仅是实际采集的数据,还包括通过仿真模拟生成的数据。因此,AI是一个数据驱动的行业,其创新离不开海量的、高质量的数据。只有拥有这些数据,我们才能训练出精准的模型,构建出实用的AI应用。
面对海量的数据,存储行业面临着诸多挑战,包括性能、成本、数据治理以及对数据的安全合规使用等。在大数据时代,如何挖掘数据的潜在价值,将这些挑战一一克服,是我们必须思考的问题。阿里云存储产品线从“Storage for AI”和“AI in Storage”两个主要方向进行演进。
Storage for AI旨在通过存储产品支持更多AI应用的高效创新。
首先是“Any Performance”。在存储行业中,以往购买存储系统时,其存储架构往往针对某一特定性能进行优化。例如,有的存储系统擅长支持OLTP工作负载,具备高IOPS和低延迟的特点,但在处理大文件时可能表现平平;有的则擅长处理海量对象存储,但在处理小规模的KV数据时性能较弱。我们认为,一个综合的存储平台应该能够为每一个使用场景提供极致的性能优化,确保在各种数据使用场景下都能保持最佳性能。
其次是“Any Interface”。存储系统有多种接口,如快速的block接口、文件接口,包括NFS、SMB等,适用于Windows、Linux等操作系统,以及object接口,并通过RESTful API访问,。在AI和大数据应用中,客户的应用场景多样,有的基于文件接口,有的已经改造为使用RESTful API访问对象存储。而同样的数据应该能够支持多种协议访问,不应被任何一种协议所绑定。
第三个是“Anywhere”。以往,由于数据传输速度相对较慢,当数据量巨大时,通常需要将算力部署在存储附近。然而,随着AI技术的蓬勃发展,大量高性能GPU在高性能网络构建下所需的电力资源不可能在任何可用区或区域都进行部署。因此,算力通常只能在固定的几个点进行部署。这就带来了新的挑战:数据可能分布在任何地方,如何高效地将数据传输到算力所在的位置,使算力得到充分利用,避免闲置?同时,在数据传输过程中如何保证数据的准确性和完整性,以及如何将数据从温度较低的区域传输到算力密集型的区域,都是我们需要解决的问题。
最后一个是“Any Data”。十年前,企业主要关注的是自身产生的数据。随后,企业开始越来越重视从客户端(C端)收集的数据。在大数据时代与AI融合的时代,我们需要管理的数据类型更加多样,可能包括购买的数据、仿真数据或从其他地方收集的数据。这些数据的安全治理和管理带来了对存储产品的更多需求和挑战。
在另一个方向“AI in Storage”上,AI也能够助力基础设施的迭代。从“Any AI Healing”的角度来看,我们利用智能方法对大规模的分布式存储系统进行预判性诊断,识别出哪些部件、环节或节点可能出现性能衰减或未来可能发生故障的情况。对于这些可预期的或AI能够发现的故障节点,我们能够主动发现和修复。此外,当故障发生时,AI能够快速定位庞大的系统中的问题所在。
在AI Management层面,我们致力于帮助客户和用户更好地管理他们的存储基础设施,包括存储容量、性能预期等方面。同时,我们还利用AI方法帮助客户管理数字资产以及解析数据,例如通过内容解析来发现潜在的恶意病毒或安全问题,并主动进行排除。
最后是存储方面,我们将与 Serverless 的GPU 或向量索引能力进行集成,通过 API 的方式助力更多的AI应用。通过基础设施产品,用户可以快速构建 AI 应用,例如将非结构化数据转化为结构化数据,从而构建一个简单易用的RAG 产品。
面向 AI 的存储基础设施升级
面向多种计算引擎& AI框架,OSS实现端到端高性能
去年,单个 OSS 客户在单个region内可达到100Gbps的性能吞吐能力。然而,许多客户并未能充分利用这一高性能,主要瓶颈在于终端应用层面。因为只有端到端的优化才能真正发挥100Gbps的性能潜力。部分客户仍采用文件访问方式处理对象存储,针对这种情况,我们进行了性能优化,包括元数据处理的改进和读写性能的提升(如OSSFS的升级)。
此外,针对那些访问频率极高的热点数据,我们推出了OSS加速器的升级版本。以往,OSS加速器主要针对大数据场景,数据规模较大,起步容量通常为TB级别。现在,我们针对AI场景,将加速器的起步容量降低至50 GB,并提升了性能密度,以更好地满足AI业务需求。
在AI的Connector和Python SDK方面,我们也进行了大幅优化,使客户能够基于OSS轻松进行数据预处理。许多AI应用在进行预处理时需要模型支持,通过OSS Connector或SDK直接访问OSS,可以显著提升性能。
在生产环境中,许多客户将大数据分析和 AI 应用相结合。他们构建的数据湖在存储带宽能力上从以前的几百Gbps升级到数十 TBps 。由于客户的应用场景多样,优先级也各不相同,因此,我们根据客户需求,在客户实际生产环境中实现了功能升级:将多个存储桶整合到一个资源池中,并实现了任务级别的服务质量(QOS)控制。这样,客户就可以动态地为 AI 应用、离线批量处理业务、搜索推广业务等分配所需的存储吞吐带宽。这一改进帮助客户更好地利用底层数据产品支撑,实现了AI 和大数据的一体化。
文件存储CPFS,满足指数级增长的AI智算所需能力
接下来将分享这两年存储行业所面临的挑战,特别是大型基模训练在10万GPU规模场景下对存储的需求。CPFS 可以视为高性能梯队的一员,它不仅能够容纳邻近GPU 的本地化缓存,构成分布式缓存系统,还拥有高性能的并行文件系统,以满足客户对小文件和大文件的读写需求。这种卓越的性能使得客户在写入检查点时,能够将耗费数千个GPU 小时训练的模型检查点迅速卸载到分布式高性能存储层,从而大幅减少 GPU的闲置时间。
CPFS 与对象存储 OSS紧密相连,能够顺畅地实现数据的上下流通、冷热加载、预加载等操作,根据计算需求智能调配所需的数据和算力,并将计算结果存储在对象存储中,以便进行更长期的保留或分发。
数据流动与智能化数据管理
对象存储OSS与CPFS之间的数据流动至关重要。如何高效地将数据根据需求流向高性能层级?又如何将高性能层级的数据流向分布式缓存?这是我们需要整体考虑的交互方案。然而,由于算力资源分布不均,电力和计算卡等资源稀缺,我们需要更加高效地将所需数据从存储移动到算力所在的位置,无论是从上海到内蒙古,还是反向移动,都需确保数据的流畅传输。
OSS数据索引支持AI检索
上述内容讲述了底层基础设施如何支持 AI 业务。同时,我们也将AI能力融入存储产品中,使其升级为智能存储。以往,我们有九种元数据可以做索引,如根据文件的创建时间、更新时间、对象大小等标签进行索引。但现在,通过向量索引和AI嵌入技术,我们能够根据内容更好地进行结构化处理,将标量索引与向量索引相结合,使客户能够更快速地利用向量和索引能力来构建RAG(检索增强生成)模型或AI助手。
基于通义大模型构建网盘多模态AI能力
接下来,将通过demo来展示这一能力。例如,在企业网盘中,我们可以根据对象桶中的数据快速进行内容搜索。通过自然语言查询,用户可以找到对应的图片或视频。此外,我们还可以使用简单的方法构建基于对象的知识库,或制作简化的RAG应用。最后,通过copilot功能,客户可以使用自然语言查询内容、提出问题或查询内部信息,并获得相应的答案。以上所有努力都是为了方便客户调用产品的API,包括无服务器的GPU资源,与OSS紧密结合,形成简单的智能AI助手或RAG应用。
全球最完整的储存产品和服务
综上所述,今天的分享聚焦于整个存储产品家族的全面升级。在公共云领域,提供了快速的文件存储、对象存储以及表格存储解决方案。而在客户的数据中心(On-premise)环境,我们也提供了丰富的混合云存储选项。这两者之间,数据迁移(或数据流通)扮演着至关重要的角色。此外,在存储层的上方,我们还统一提供了容灾备份、媒体管理以及网盘服务等,旨在为客户打造全方位的数据密集型解决方案。
未来的发展方向将主要聚焦于两个维度:一是打造专为AI设计的存储解决方案;二是将AI能力融入存储产品中,推动存储向智能普惠的新阶段迈进。
目前,阿里云平台上已经承载了超过500万来自全球各地的客户数据。这不仅仅包括传统企业的数据上云需求,还涵盖了互联网云原生的业务创新。同时,也有众多AI原生的创业公司正在基于我们的基础设施平台进行创新和价值创造。