唯有超大规模存储系统才能满足人工智能的需求

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。

随着世界各国政府努力应对人工智能的深远影响,关于如何规范人工智能的使用以造福社会并防止其滥用的复杂辩论正在升温。“与此同时,人工智能和机器学习工具已经成为我们日常生活中不可或缺的一部分,并将变得更加普遍。”昆腾企业产品和解决方案营销部门的Tim Sherbak表示。

令人欣慰的是,有许多例子表明人工智能的能力正在以积极的方式发展,例如医学利用这些优势来帮助检测癌症,银行和信用卡公司部署解决方案来防止欺诈和诈骗,以及建筑业评估如何使用这些解决方案来提供更快、更高效的建筑设计过程。

人工智能在各行各业的应用正在迅速扩大,以处理和利用以不同格式创建的数据,以及自动化任务、检测异常,并生成新的内容和创意。然而,要成功交付这些结果需要大量的源数据。这正是存储问题的开始,而且还不止于此。

为什么人工智能存储问题日益严重

首先,需要收集大量的原始数据来构建人工智能和机器学习应用程序。但所使用的数据类型带来了进一步的挑战,主要是因为其中大多数是非结构化数据,如文档、网页、社交媒体帖子、电子邮件、录音、视频和图像。这些形式的数据比通常存储在数据库和档案中的结构化数据要大得多。

接下来,对原始数据进行处理,将其转换为用来训练算法模型的格式。整体有效性取决于原始数据的数量和质量、算法设计以及反馈和更新数据的不断改进。最终的人工智能模型包含了训练过程中获得的所有知识,从简单的基于规则的系统到复杂的神经网络。

所有这些加起来就形成了巨大的数据量,可能是PB级的,随着新数据的收集,数据量还在不断增长。它可能需要存储几十年,甚至更长时间,特别是如果未来需要这些数据集来训练全新的人工智能模型。

非结构化数据的时代

必须引起重视的是,在过去两年中创建的数据中,超过80%是非结构化的,并且正在以惊人的速度增长。分析师预测,未来五年创建的数据量将是过去十年的两倍,而且超过80%的数据仍然是非结构化的。这加起来就有ZB(数万亿GB)级的数据需要管理!

如今,企业在不知道未来需要什么数据的情况下,被迫就保留多少数据做出重要决定。因此,许多人都采取了尝试保留所有数据的方法,并面临着寻找“不仅价格合理而且易于检索数据”的存储解决方案的问题。

火上浇油的是,人工智能应用对存储系统性能提出了巨大的要求。处理这些庞大的非结构化数据集需要极低的延迟和高性能,而传统存储系统从来没有围绕这些需求而构建,当然也没有人工智能所需的强一致性。

性能和可访问性的规划

目前,世界上大部分数据都存储在基于硬盘的系统上,而这些系统是20多年前开发出来的,是在甚至没有考虑将EB的非结构化数据存储几十年的概念时构思的。当时,数据大多是结构化格式,通常出于合规和法律目的而不是其内在价值而归档的。从历史上看,这种保留的数据几乎不需要额外的处理,可以长期保存在性能较低的存储系统中。现在,所有的企业都希望保持并使其数据易于访问和搜索,并期望再次需要以新的方式进行再加工、再训练或变现。

使这种检索行为更加困难的是,许多企业的信息分布在云和本地的多个系统中。他们通常不知道自己的档案中到底有什么,也不知道自己是否在许多地方持有相同数据的副本。此外,新数据可能在数据中心之外由应用程序或对象(如物理摄像机)生成,并移动到其他地方进行处理。因此,在数据从一个地方移动到另一个地方的整个生命周期中,也必须适应对数据的管理。因此,存储解决方案必须非常灵活,才能满足所有要求,并在云中或本地运行。

对于传统存储系统来说,这是一个不可能的要求,因为它们从来没有为这种数量或类型的数据而设计,也没有达到这样的规模。传统的网络连接存储和对象存储体系结构如果试图超规模化,就会崩溃。包含RAID和复制的替代方案也有类似的问题,因为它们无法提供足够的故障保护或存储效率。此外,管理多个存储设备和不同的存储层会占用宝贵的管理时间。

扩展人工智能驱动的世界

许多组织面临的问题是,如何在不破坏存储预算的情况下,长期保护不断增长的有价值数据?答案就是,现在是时候用负担得起的云原生解决方案实现超大规模化了,这些解决方案是从头开始设计的,旨在为人工智能驱动的社会提供高性能的解决方案。

这些解决方案是用结合闪存和RDMA(远程直接内存访问)网络的大规模扩展架构开发的。在人工智能和机器学习等数据密集型工作负载中,它们的延迟非常低,吞吐量更高,从而实现了超快的应用程序性能和响应能力。这也实现了跨多个系统的高效数据共享和同步,非常适合分布式和混合云,以及本地环境。

另一个改变游戏规则的因素是,超大规模不仅仅是容量问题。最新的创新存储技术还通过自动化数据标注和分类,以及跨不同系统管理数据去重,实现了更快、准确的搜索和检索。

企业越来越多地看到他们所创造的信息和情报中未开发的潜力,但却难以有效地存储它们。现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。

本文作者为昆腾企业产品和解决方案营销部的Tim Sherbak。

相关文章
|
22天前
|
机器学习/深度学习 人工智能 算法
海洋生物识别系统+图像识别+Python+人工智能课设+深度学习+卷积神经网络算法+TensorFlow
海洋生物识别系统。以Python作为主要编程语言,通过TensorFlow搭建ResNet50卷积神经网络算法,通过对22种常见的海洋生物('蛤蜊', '珊瑚', '螃蟹', '海豚', '鳗鱼', '水母', '龙虾', '海蛞蝓', '章鱼', '水獭', '企鹅', '河豚', '魔鬼鱼', '海胆', '海马', '海豹', '鲨鱼', '虾', '鱿鱼', '海星', '海龟', '鲸鱼')数据集进行训练,得到一个识别精度较高的模型文件,然后使用Django开发一个Web网页平台操作界面,实现用户上传一张海洋生物图片识别其名称。
113 7
海洋生物识别系统+图像识别+Python+人工智能课设+深度学习+卷积神经网络算法+TensorFlow
|
15天前
|
机器学习/深度学习 人工智能 算法
【乐器识别系统】图像识别+人工智能+深度学习+Python+TensorFlow+卷积神经网络+模型训练
乐器识别系统。使用Python为主要编程语言,基于人工智能框架库TensorFlow搭建ResNet50卷积神经网络算法,通过对30种乐器('迪吉里杜管', '铃鼓', '木琴', '手风琴', '阿尔卑斯号角', '风笛', '班卓琴', '邦戈鼓', '卡萨巴', '响板', '单簧管', '古钢琴', '手风琴(六角形)', '鼓', '扬琴', '长笛', '刮瓜', '吉他', '口琴', '竖琴', '沙槌', '陶笛', '钢琴', '萨克斯管', '锡塔尔琴', '钢鼓', '长号', '小号', '大号', '小提琴')的图像数据集进行训练,得到一个训练精度较高的模型,并将其
27 0
【乐器识别系统】图像识别+人工智能+深度学习+Python+TensorFlow+卷积神经网络+模型训练
|
11天前
|
机器学习/深度学习 人工智能 算法
【服装识别系统】图像识别+Python+人工智能+深度学习+算法模型+TensorFlow
服装识别系统,本系统作为图像识别方面的一个典型应用,使用Python作为主要编程语言,并通过TensorFlow搭建ResNet50卷积神经算法网络模型,通过对18种不同的服装('黑色连衣裙', '黑色衬衫', '黑色鞋子', '黑色短裤', '蓝色连衣裙', '蓝色衬衫', '蓝色鞋子', '蓝色短裤', '棕色鞋子', '棕色短裤', '绿色衬衫', '绿色鞋子', '绿色短裤', '红色连衣裙', '红色鞋子', '白色连衣裙', '白色鞋子', '白色短裤')数据集进行训练,最后得到一个识别精度较高的H5格式模型文件,然后基于Django搭建Web网页端可视化操作界面,实现用户在界面中
34 1
【服装识别系统】图像识别+Python+人工智能+深度学习+算法模型+TensorFlow
|
22天前
|
机器学习/深度学习 人工智能 算法
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50
昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集('蜜蜂', '甲虫', '蝴蝶', '蝉', '蜻蜓', '蚱蜢', '蛾', '蝎子', '蜗牛', '蜘蛛')进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一张昆虫图片识别其名称。
170 7
【昆虫识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50
|
23天前
|
机器学习/深度学习 人工智能 算法
【球类识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+TensorFlow
球类识别系统,本系统使用Python作为主要编程语言,基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集 '美式足球', '棒球', '篮球', '台球', '保龄球', '板球', '足球', '高尔夫球', '曲棍球', '冰球', '橄榄球', '羽毛球', '乒乓球', '网球', '排球'等15种常见的球类图像作为数据集,然后进行训练,最终得到一个识别精度较高的模型文件。再使用Django开发Web网页端可视化界面平台,实现用户上传一张球类图片识别其名称。
113 7
【球类识别系统】图像识别Python+卷积神经网络算法+人工智能+深度学习+TensorFlow
|
1月前
|
人工智能 数据库 Docker
探索人工智能的世界:构建智能问答系统之环境篇
【6月更文挑战第7天】在本教程中,作者指导读者如何搭建项目环境,包括安装Python 3.10、Docker Desktop和Visual Studio Code。安装Python时可按默认设置进行,Docker Desktop用于管理数据库容器,提供更好的开发和测试环境。Visual Studio Code是一个推荐的源代码编辑器。虽然尝试使用cursor开发时遇到问题,但最终选择了使用VS Code。但建议本地开发。配置文件部分,提供了`docker-compose.yaml`、`Dockerfile`和`pyproject.toml`的示例,用于构建和管理项目容器。
探索人工智能的世界:构建智能问答系统之环境篇
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能平台PAI产品使用合集之如何配置cluster系统自动生成分布式参数
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
14天前
|
机器学习/深度学习 人工智能 Java
人工智能平台PAI产品使用合集之如何配置工作空间存储路径
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
14天前
|
机器学习/深度学习 存储 人工智能
人工智能平台PAI产品使用合集之选择使用Hologres作为在线特征存储,响应延时大概在多久
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
27天前
|
机器学习/深度学习 人工智能 算法
人工智能在金融反欺诈系统中的应用与评估
人工智能在金融反欺诈系统中的应用与评估