AI驱动下的云存储创新

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
文件存储 NAS,50GB 3个月
简介: 随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显。同时, AI 快速发展也为云存储的进化与创新提供了强大的驱动力。本话题将解读AI 驱动下云存储的进化趋势,分享阿里云存储的创新技术,助力企业实现数字化升级。

分享人:阿里云智能集团弹性计算存储产品线产品负责人 Alex Chen

随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显,同时AI快速发展也为云存储的进化与创新提供了强大的驱动力。

一、数据就像浩瀚的宇宙

当谈及存储时,我们不可避免地要考虑数据。可以将数据视为如同宇宙一般,持续不断地膨胀着。其数据量在不经意间,无规律且持续地增长。随着数据量的不断累积,分析这些数据便成为了一项挑战。我们认为,数据的量增也带来了某种引力效应,因此有时需要将算力直接部署到存储层面,因为将数据迁移到算力所在位置所花费的时间,可能会超过实际计算所需的时间。数据蕴含着丰富的价值,那么,我们该如何通过分析数据来挖掘其潜在价值、发现潜在趋势呢?同时,数据如同宇宙一样,伴随着诸多风险,例如各种病毒侵袭、人为操作失误,或是机房设备故障,这些都可能导致企业失去其最核心或最宝贵的资产——数据。

二、未来,每一家公司都将是Data+AI的公司

在数据时代,数据与AI的结合推动了各公司数字化转型过程中与AI的深度集成。在AI和大数据集成的时代,基础设施面临着新的挑战。

1. CIPU2.0,进一步提升数据加速的效率

阿里云的核心硬件CIPU进行了升级,这不仅是从1.0到2.0的简单演进,而是经过五个代系的迭代,历时七年。从最初的微处理器、微服务器芯片硬件,到虚拟化加速IO的改进,不论是在网络还是存储领域,都实现了从FPGA向AC化的转变。随着软件的持续优化和硬件能力的提升,数据中心的数据传输效率和性能得到了显著提升。在基于CIPU 2.0的架构下,数据中心的网络带宽至少达到了200G以上,实例及其配套的网络和存储能力都有了大幅提升,甚至达到几百万IOPS或300万IOPS以上。

2. 高性能HPN7.0-为AI设计的高性能网络架构

AI时代带来了大规模模型训练的新业务场景。在大规模训练中,云计算的整体架构如同一台计算机,由多个GPU协同工作。如果任何一个节点或网络出现问题,可能会导致整个训练失效或算力资源浪费。因此,GPU之间以及算力节点的协同至关重要,网络的可用性和高可用性尤为关键,这在某种程度上也代表了算力的高可用性。为应对这些挑战,计算场景下的网络能力被重新设计,形成了高性能网络的架构。该架构分为两层:第一层支持上千块GPU的集合通信,通信只需一次跳转;第二层可支持上万块GPU,并将前端网络与后端存储网络分离,确保两者互不干扰。此外,通过自研网卡、自研流控、自研协议以及端到端的优化,确保计算系统具备99%的有效可用率。

3. 飞天盘古

经过16年的打磨,盘古的分布式存储技术历经了三个阶段的发展。1.0阶段实现了上万台设备的集群规模,2.0阶段注重提升性能,3.0阶段则专注于端到端的软硬一体化优化,包括对SSD和Flash存储的高效调优。这些技术驱动了产品的不断演进,并在技术上保持了领先地位。

三、存储产品

1. Storage for AI——4 Any

Any Performance:在传统存储系统中,通常会针对特定的性能需求进行优化,例如优化随机读写、优化吞吐量、优化小文件或大文件处理。然而,随着统一数据存储底座的出现,我们面对的是多样化的工作负载和性能需求。因此,在每个场景下都要做到最优表现,而不是在所有场景中妥协为“平庸的表现”。  

Any Interface:由于数据底座的广泛性,它已经采用了单一协议,这意味着不再需要为切换存储类型而烦恼。许多客户仍然使用文件系统来访问对象存储,或者有些客户已经切换到通过API访问对象存储。因此,接口本身不再重要,重要的是能否支持传统应用和新的创新应用。AI应用可能基于对象存储,也可能基于传统的文件系统。  

Anywhere:有人提出“数据有引力”,数据在哪里,计算资源就应该在哪里部署。然而,现实中并不是所有地方都能部署大规模GPU集群和高性能网络,甚至有些地方也无法提供数据中心所需的电力和规模。因此,高性能算力集群通常只会部署在特定地区,数据需要根据需求顺畅且高效地移动到算力集群中。Anywhere接口的概念不仅仅涉及冷数据到热数据的迁移,还包括数据按需高效地流动,支持跨地域的算力分析,例如从上海到乌兰,按需求流动数据,成为关键特征。  

Any data:以前,客户主要管理自身业务产生的数据。但在大数据时代,除了自己产生的数据,客户还可能需要管理购买的数据或第三方产生的数据。如何高效管理这些数据,并找到需要的数据,成为AI模型训练成功的关键。因此,数据治理和管理变得至关重要,这也推动了存储产品的演进,尤其是将AI能力应用到存储产品中。  

2. AI enabled Storage——3 AI

AI-Healing:利用AI技术对存储系统中的潜在问题进行预测和自动修复,减少人工干预,提高系统的稳定性和可靠性。OSS 针对 “AIGC” 场景的多模态内容支持原生的内容安全和恶意文件检测,快速识别常见病毒,防止恶意文件传播和执行。
AI-Management:通过AI算法优化存储资源的分配和调度,实现存储系统的自动化管理,帮助企业管理好存储性能预期、数字资产,提高存储效率和降低成本。阿里云利用了 Tablestore 表格存储的向量检索技术,推出了OSS数据索引的新功能——语义检索。这一功能不仅能够处理文档,还支持内容生成及AI助手服务,使用户能以更智能的方式管理海量数据,极大地提高了数据搜索、处理及管理的效率,尤其适用于大规模多模态数据集的管理。

AI-Generation:指的是存储系统能够利用AI技术生成智能报告和洞察,帮助用户更好地理解和优化他们的数据存储策略。阿里云企业网盘基于通义大模型构建网盘多模态 AI 能力,支持自适应数据分段聚合、融合索引以及跨模态查询等功能,轻松利用海量非结构化数据构建各类AI应用。

围绕 Storage for AI 与 AI in Storage 两大领域,提出“ 4 Any + 3 AI ”是存储产品的升级方向。

四、全球最完整的存储产品和服务

每年都会接收一个庞大的存储图像,以及各种快速存储文件、对象和表格数据,这些数据均被妥善存储在云端。同时,在本地部署了混合型存储系统。该系统还整合了统一的灾难恢复备份、媒体管理和网盘服务,构成了我们存储密集型的解决方案。

在科技奖项方面,我们获得了诸多荣誉,得益于盘古存储产品不断获得业界和国家的认可与奖项。这些肯定也激励我们在技术上持续精进。

五、总结

存储产品的演进将持续朝两个方向发展:一是支持更多的AI业务,无论是数据准备、模型训练、模型微调,还是大规模的万卡集群模型训练,或者是规模稍小的百卡模型训练,甚至是后续的大规模推理任务。其中,推理任务可能是单机推理,也可能是多机推理。我们将把更多的AI能力嵌入到存储产品线中,使存储具备更智能的能力,并通过Copilot或自然语言界面,帮助客户更高效地管理他们的存储和数据资产。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
6天前
|
机器学习/深度学习 人工智能 算法
转载:【AI系统】AI 发展驱动力
本文介绍了AI的起源与发展历程,强调了2016年AlphaGo胜利对AI关注度的提升。文中详细解析了AI技术在搜索引擎、图片检索、广告推荐等领域的应用,并阐述了机器学习、深度学习和神经网络之间的关系。文章还深入探讨了AI的学习方法,包括模型的输入输出确定、模型设计与开发、训练过程(前向传播、反向传播、梯度更新)及推理过程。最后,文章概述了AI算法的现状与发展趋势,以及AI系统出现的背景,包括大数据、算法进步和算力提升三大关键因素。
转载:【AI系统】AI 发展驱动力
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
AI驱动的个性化学习路径优化
在当前教育领域,个性化学习正逐渐成为一种趋势。本文探讨了如何利用人工智能技术来优化个性化学习路径,提高学习效率和质量。通过分析学生的学习行为、偏好和表现,AI可以动态调整学习内容和难度,实现真正的因材施教。文章还讨论了实施这种技术所面临的挑战和潜在的解决方案。
53 7
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
智能化软件测试:AI驱动的自动化测试策略与实践####
本文深入探讨了人工智能(AI)在软件测试领域的创新应用,通过分析AI技术如何优化测试流程、提升测试效率及质量,阐述了智能化软件测试的核心价值。文章首先概述了传统软件测试面临的挑战,随后详细介绍了AI驱动的自动化测试工具与框架,包括自然语言处理(NLP)、机器学习(ML)算法在缺陷预测、测试用例生成及自动化回归测试中的应用实例。最后,文章展望了智能化软件测试的未来发展趋势,强调了持续学习与适应能力对于保持测试策略有效性的重要性。 ####
|
22天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI芯片驱动智能革命
本课程深入解析AI模型设计演进,探讨AI算法如何影响AI芯片设计,涵盖CPU、GPU、FPGA、ASIC等主流AI芯片,旨在全面理解AI系统体系,适应后摩尔定律时代的技术挑战。
35 5
|
20天前
|
人工智能 机器人 数据库
使用FlowiseAI轻松搭建AI驱动的交互式应用
FlowiseAI 是一款开源低代码工具,旨在帮助开发者构建自定义的语言学习模型应用。它提供拖放界面,支持与多种AI模型和数据库集成,适用于创建聊天机器人等交互式应用。使用阿里云的计算巢,用户可通过一键部署快速启动FlowiseAI,并通过简单的步骤配置和运行自定义的LLM应用。
|
21天前
|
人工智能 大数据 云计算
【AI系统】AI 发展驱动力
本文介绍了阿里云在2023年云栖大会上发布的多项新技术和产品,涵盖云计算、大数据、人工智能等领域,展示了阿里云最新的技术成果和行业解决方案,助力企业数字化转型。
|
23天前
|
数据采集 人工智能 机器人
AMD的CIO谈AI驱动转型和IT的未来
AMD的CIO谈AI驱动转型和IT的未来
|
26天前
|
机器学习/深度学习 人工智能 运维
智能运维:AI驱动的IT运维革命###
【10月更文挑战第21天】 随着数字化转型的深入,智能运维(AIOps)正逐步成为企业IT管理的核心。本文将探讨AI技术如何赋能运维领域,通过自动化、智能化手段提升系统稳定性和效率,降低运营成本,并分享实施智能运维的最佳实践与挑战应对策略。 ###
57 1
|
1月前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
151 19