分享人:阿里云智能集团弹性计算存储产品线产品负责人 Alex Chen
随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显,同时AI快速发展也为云存储的进化与创新提供了强大的驱动力。
一、数据就像浩瀚的宇宙
当谈及存储时,我们不可避免地要考虑数据。可以将数据视为如同宇宙一般,持续不断地膨胀着。其数据量在不经意间,无规律且持续地增长。随着数据量的不断累积,分析这些数据便成为了一项挑战。我们认为,数据的量增也带来了某种引力效应,因此有时需要将算力直接部署到存储层面,因为将数据迁移到算力所在位置所花费的时间,可能会超过实际计算所需的时间。数据蕴含着丰富的价值,那么,我们该如何通过分析数据来挖掘其潜在价值、发现潜在趋势呢?同时,数据如同宇宙一样,伴随着诸多风险,例如各种病毒侵袭、人为操作失误,或是机房设备故障,这些都可能导致企业失去其最核心或最宝贵的资产——数据。
二、未来,每一家公司都将是Data+AI的公司
在数据时代,数据与AI的结合推动了各公司数字化转型过程中与AI的深度集成。在AI和大数据集成的时代,基础设施面临着新的挑战。
1. CIPU2.0,进一步提升数据加速的效率
阿里云的核心硬件CIPU进行了升级,这不仅是从1.0到2.0的简单演进,而是经过五个代系的迭代,历时七年。从最初的微处理器、微服务器芯片硬件,到虚拟化加速IO的改进,不论是在网络还是存储领域,都实现了从FPGA向AC化的转变。随着软件的持续优化和硬件能力的提升,数据中心的数据传输效率和性能得到了显著提升。在基于CIPU 2.0的架构下,数据中心的网络带宽至少达到了200G以上,实例及其配套的网络和存储能力都有了大幅提升,甚至达到几百万IOPS或300万IOPS以上。
2. 高性能HPN7.0-为AI设计的高性能网络架构
AI时代带来了大规模模型训练的新业务场景。在大规模训练中,云计算的整体架构如同一台计算机,由多个GPU协同工作。如果任何一个节点或网络出现问题,可能会导致整个训练失效或算力资源浪费。因此,GPU之间以及算力节点的协同至关重要,网络的可用性和高可用性尤为关键,这在某种程度上也代表了算力的高可用性。为应对这些挑战,计算场景下的网络能力被重新设计,形成了高性能网络的架构。该架构分为两层:第一层支持上千块GPU的集合通信,通信只需一次跳转;第二层可支持上万块GPU,并将前端网络与后端存储网络分离,确保两者互不干扰。此外,通过自研网卡、自研流控、自研协议以及端到端的优化,确保计算系统具备99%的有效可用率。
3. 飞天盘古
经过16年的打磨,盘古的分布式存储技术历经了三个阶段的发展。1.0阶段实现了上万台设备的集群规模,2.0阶段注重提升性能,3.0阶段则专注于端到端的软硬一体化优化,包括对SSD和Flash存储的高效调优。这些技术驱动了产品的不断演进,并在技术上保持了领先地位。
三、存储产品
1. Storage for AI——4 Any
Any Performance:在传统存储系统中,通常会针对特定的性能需求进行优化,例如优化随机读写、优化吞吐量、优化小文件或大文件处理。然而,随着统一数据存储底座的出现,我们面对的是多样化的工作负载和性能需求。因此,在每个场景下都要做到最优表现,而不是在所有场景中妥协为“平庸的表现”。
Any Interface:由于数据底座的广泛性,它已经采用了单一协议,这意味着不再需要为切换存储类型而烦恼。许多客户仍然使用文件系统来访问对象存储,或者有些客户已经切换到通过API访问对象存储。因此,接口本身不再重要,重要的是能否支持传统应用和新的创新应用。AI应用可能基于对象存储,也可能基于传统的文件系统。
Anywhere:有人提出“数据有引力”,数据在哪里,计算资源就应该在哪里部署。然而,现实中并不是所有地方都能部署大规模GPU集群和高性能网络,甚至有些地方也无法提供数据中心所需的电力和规模。因此,高性能算力集群通常只会部署在特定地区,数据需要根据需求顺畅且高效地移动到算力集群中。Anywhere接口的概念不仅仅涉及冷数据到热数据的迁移,还包括数据按需高效地流动,支持跨地域的算力分析,例如从上海到乌兰,按需求流动数据,成为关键特征。
Any data:以前,客户主要管理自身业务产生的数据。但在大数据时代,除了自己产生的数据,客户还可能需要管理购买的数据或第三方产生的数据。如何高效管理这些数据,并找到需要的数据,成为AI模型训练成功的关键。因此,数据治理和管理变得至关重要,这也推动了存储产品的演进,尤其是将AI能力应用到存储产品中。
2. AI enabled Storage——3 AI
AI-Healing:利用AI技术对存储系统中的潜在问题进行预测和自动修复,减少人工干预,提高系统的稳定性和可靠性。OSS 针对 “AIGC” 场景的多模态内容支持原生的内容安全和恶意文件检测,快速识别常见病毒,防止恶意文件传播和执行。
AI-Management:通过AI算法优化存储资源的分配和调度,实现存储系统的自动化管理,帮助企业管理好存储性能预期、数字资产,提高存储效率和降低成本。阿里云利用了 Tablestore 表格存储的向量检索技术,推出了OSS数据索引的新功能——语义检索。这一功能不仅能够处理文档,还支持内容生成及AI助手服务,使用户能以更智能的方式管理海量数据,极大地提高了数据搜索、处理及管理的效率,尤其适用于大规模多模态数据集的管理。
AI-Generation:指的是存储系统能够利用AI技术生成智能报告和洞察,帮助用户更好地理解和优化他们的数据存储策略。阿里云企业网盘基于通义大模型构建网盘多模态 AI 能力,支持自适应数据分段聚合、融合索引以及跨模态查询等功能,轻松利用海量非结构化数据构建各类AI应用。
围绕 Storage for AI 与 AI in Storage 两大领域,提出“ 4 Any + 3 AI ”是存储产品的升级方向。
四、全球最完整的存储产品和服务
每年都会接收一个庞大的存储图像,以及各种快速存储文件、对象和表格数据,这些数据均被妥善存储在云端。同时,在本地部署了混合型存储系统。该系统还整合了统一的灾难恢复备份、媒体管理和网盘服务,构成了我们存储密集型的解决方案。
在科技奖项方面,我们获得了诸多荣誉,得益于盘古存储产品不断获得业界和国家的认可与奖项。这些肯定也激励我们在技术上持续精进。
五、总结
存储产品的演进将持续朝两个方向发展:一是支持更多的AI业务,无论是数据准备、模型训练、模型微调,还是大规模的万卡集群模型训练,或者是规模稍小的百卡模型训练,甚至是后续的大规模推理任务。其中,推理任务可能是单机推理,也可能是多机推理。我们将把更多的AI能力嵌入到存储产品线中,使存储具备更智能的能力,并通过Copilot或自然语言界面,帮助客户更高效地管理他们的存储和数据资产。