AI驱动下的云存储创新

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显。同时, AI 快速发展也为云存储的进化与创新提供了强大的驱动力。本话题将解读AI 驱动下云存储的进化趋势,分享阿里云存储的创新技术,助力企业实现数字化升级。

分享人:阿里云智能集团弹性计算存储产品线产品负责人 Alex Chen

随着大数据时代的到来,云存储作为数据存储和管理的核心基础设施,其重要性日益凸显,同时AI快速发展也为云存储的进化与创新提供了强大的驱动力。

一、数据就像浩瀚的宇宙

当谈及存储时,我们不可避免地要考虑数据。可以将数据视为如同宇宙一般,持续不断地膨胀着。其数据量在不经意间,无规律且持续地增长。随着数据量的不断累积,分析这些数据便成为了一项挑战。我们认为,数据的量增也带来了某种引力效应,因此有时需要将算力直接部署到存储层面,因为将数据迁移到算力所在位置所花费的时间,可能会超过实际计算所需的时间。数据蕴含着丰富的价值,那么,我们该如何通过分析数据来挖掘其潜在价值、发现潜在趋势呢?同时,数据如同宇宙一样,伴随着诸多风险,例如各种病毒侵袭、人为操作失误,或是机房设备故障,这些都可能导致企业失去其最核心或最宝贵的资产——数据。

二、未来,每一家公司都将是Data+AI的公司

在数据时代,数据与AI的结合推动了各公司数字化转型过程中与AI的深度集成。在AI和大数据集成的时代,基础设施面临着新的挑战。

1. CIPU2.0,进一步提升数据加速的效率

阿里云的核心硬件CIPU进行了升级,这不仅是从1.0到2.0的简单演进,而是经过五个代系的迭代,历时七年。从最初的微处理器、微服务器芯片硬件,到虚拟化加速IO的改进,不论是在网络还是存储领域,都实现了从FPGA向AC化的转变。随着软件的持续优化和硬件能力的提升,数据中心的数据传输效率和性能得到了显著提升。在基于CIPU 2.0的架构下,数据中心的网络带宽至少达到了200G以上,实例及其配套的网络和存储能力都有了大幅提升,甚至达到几百万IOPS或300万IOPS以上。

2. 高性能HPN7.0-为AI设计的高性能网络架构

AI时代带来了大规模模型训练的新业务场景。在大规模训练中,云计算的整体架构如同一台计算机,由多个GPU协同工作。如果任何一个节点或网络出现问题,可能会导致整个训练失效或算力资源浪费。因此,GPU之间以及算力节点的协同至关重要,网络的可用性和高可用性尤为关键,这在某种程度上也代表了算力的高可用性。为应对这些挑战,计算场景下的网络能力被重新设计,形成了高性能网络的架构。该架构分为两层:第一层支持上千块GPU的集合通信,通信只需一次跳转;第二层可支持上万块GPU,并将前端网络与后端存储网络分离,确保两者互不干扰。此外,通过自研网卡、自研流控、自研协议以及端到端的优化,确保计算系统具备99%的有效可用率。

3. 飞天盘古

经过16年的打磨,盘古的分布式存储技术历经了三个阶段的发展。1.0阶段实现了上万台设备的集群规模,2.0阶段注重提升性能,3.0阶段则专注于端到端的软硬一体化优化,包括对SSD和Flash存储的高效调优。这些技术驱动了产品的不断演进,并在技术上保持了领先地位。

三、存储产品

1. Storage for AI——4 Any

Any Performance:在传统存储系统中,通常会针对特定的性能需求进行优化,例如优化随机读写、优化吞吐量、优化小文件或大文件处理。然而,随着统一数据存储底座的出现,我们面对的是多样化的工作负载和性能需求。因此,在每个场景下都要做到最优表现,而不是在所有场景中妥协为“平庸的表现”。  

Any Interface:由于数据底座的广泛性,它已经采用了单一协议,这意味着不再需要为切换存储类型而烦恼。许多客户仍然使用文件系统来访问对象存储,或者有些客户已经切换到通过API访问对象存储。因此,接口本身不再重要,重要的是能否支持传统应用和新的创新应用。AI应用可能基于对象存储,也可能基于传统的文件系统。  

Anywhere:有人提出“数据有引力”,数据在哪里,计算资源就应该在哪里部署。然而,现实中并不是所有地方都能部署大规模GPU集群和高性能网络,甚至有些地方也无法提供数据中心所需的电力和规模。因此,高性能算力集群通常只会部署在特定地区,数据需要根据需求顺畅且高效地移动到算力集群中。Anywhere接口的概念不仅仅涉及冷数据到热数据的迁移,还包括数据按需高效地流动,支持跨地域的算力分析,例如从上海到乌兰,按需求流动数据,成为关键特征。  

Any data:以前,客户主要管理自身业务产生的数据。但在大数据时代,除了自己产生的数据,客户还可能需要管理购买的数据或第三方产生的数据。如何高效管理这些数据,并找到需要的数据,成为AI模型训练成功的关键。因此,数据治理和管理变得至关重要,这也推动了存储产品的演进,尤其是将AI能力应用到存储产品中。  

2. AI enabled Storage——3 AI

AI-Healing:利用AI技术对存储系统中的潜在问题进行预测和自动修复,减少人工干预,提高系统的稳定性和可靠性。OSS 针对 “AIGC” 场景的多模态内容支持原生的内容安全和恶意文件检测,快速识别常见病毒,防止恶意文件传播和执行。
AI-Management:通过AI算法优化存储资源的分配和调度,实现存储系统的自动化管理,帮助企业管理好存储性能预期、数字资产,提高存储效率和降低成本。阿里云利用了 Tablestore 表格存储的向量检索技术,推出了OSS数据索引的新功能——语义检索。这一功能不仅能够处理文档,还支持内容生成及AI助手服务,使用户能以更智能的方式管理海量数据,极大地提高了数据搜索、处理及管理的效率,尤其适用于大规模多模态数据集的管理。

AI-Generation:指的是存储系统能够利用AI技术生成智能报告和洞察,帮助用户更好地理解和优化他们的数据存储策略。阿里云企业网盘基于通义大模型构建网盘多模态 AI 能力,支持自适应数据分段聚合、融合索引以及跨模态查询等功能,轻松利用海量非结构化数据构建各类AI应用。

围绕 Storage for AI 与 AI in Storage 两大领域,提出“ 4 Any + 3 AI ”是存储产品的升级方向。

四、全球最完整的存储产品和服务

每年都会接收一个庞大的存储图像,以及各种快速存储文件、对象和表格数据,这些数据均被妥善存储在云端。同时,在本地部署了混合型存储系统。该系统还整合了统一的灾难恢复备份、媒体管理和网盘服务,构成了我们存储密集型的解决方案。

在科技奖项方面,我们获得了诸多荣誉,得益于盘古存储产品不断获得业界和国家的认可与奖项。这些肯定也激励我们在技术上持续精进。

五、总结

存储产品的演进将持续朝两个方向发展:一是支持更多的AI业务,无论是数据准备、模型训练、模型微调,还是大规模的万卡集群模型训练,或者是规模稍小的百卡模型训练,甚至是后续的大规模推理任务。其中,推理任务可能是单机推理,也可能是多机推理。我们将把更多的AI能力嵌入到存储产品线中,使存储具备更智能的能力,并通过Copilot或自然语言界面,帮助客户更高效地管理他们的存储和数据资产。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
13天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
1月前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
60 2
|
12天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI驱动的个性化学习平台构建###
【10月更文挑战第29天】 本文将深入探讨如何利用人工智能技术,特别是机器学习与大数据分析,构建一个能够提供高度个性化学习体验的在线平台。我们将分析当前在线教育的挑战,提出通过智能算法实现内容定制、学习路径优化及实时反馈机制的技术方案,以期为不同背景和需求的学习者创造更加高效、互动的学习环境。 ###
32 3
|
16天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
13天前
|
数据采集 人工智能 搜索推荐
|
13天前
|
数据采集 人工智能 搜索推荐
大咖说|Data+AI:企业智能化转型的核心驱动力
在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的Data+AI力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本文将讨论企业采用Data+AI平台的必要性及其在企业智能化转型中的作用。
74 0
大咖说|Data+AI:企业智能化转型的核心驱动力
|
25天前
|
人工智能 安全 决策智能
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
OpenAI推出实验性“Swarm”框架,引发关于AI驱动自动化的争论
|
20天前
|
机器学习/深度学习 人工智能 测试技术
探索 AI 驱动的软件开发:未来技术的新趋势
【10月更文挑战第19天】本文探讨了人工智能(AI)在软件开发中的应用现状和技术优势,包括代码生成、缺陷检测、自动化测试和性能优化。AI 可以提高开发效率、减少人为错误、加速创新并持续学习。文章还讨论了实施 AI 驱动开发的挑战和最佳实践,强调了数据管理和技能培训的重要性。
|
18天前
|
机器学习/深度学习 数据采集 人工智能
探索AI驱动的自动化测试新纪元###
本文旨在探讨人工智能如何革新软件测试领域,通过AI技术提升测试效率、精准度和覆盖范围。在智能算法的支持下,自动化测试不再局限于简单的脚本回放,而是能够模拟复杂场景、预测潜在缺陷,并实现自我学习与优化。我们正步入一个测试更加主动、灵活且高效的新时代,本文将深入剖析这一变革的核心驱动力及其对未来软件开发的影响。 ###