唯有超大规模存储系统才能满足人工智能的需求

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
日志服务 SLS,月写入数据量 50GB 1个月
简介: 现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。

随着世界各国政府努力应对人工智能的深远影响,关于如何规范人工智能的使用以造福社会并防止其滥用的复杂辩论正在升温。“与此同时,人工智能和机器学习工具已经成为我们日常生活中不可或缺的一部分,并将变得更加普遍。”昆腾企业产品和解决方案营销部门的Tim Sherbak表示。

令人欣慰的是,有许多例子表明人工智能的能力正在以积极的方式发展,例如医学利用这些优势来帮助检测癌症,银行和信用卡公司部署解决方案来防止欺诈和诈骗,以及建筑业评估如何使用这些解决方案来提供更快、更高效的建筑设计过程。

人工智能在各行各业的应用正在迅速扩大,以处理和利用以不同格式创建的数据,以及自动化任务、检测异常,并生成新的内容和创意。然而,要成功交付这些结果需要大量的源数据。这正是存储问题的开始,而且还不止于此。

为什么人工智能存储问题日益严重

首先,需要收集大量的原始数据来构建人工智能和机器学习应用程序。但所使用的数据类型带来了进一步的挑战,主要是因为其中大多数是非结构化数据,如文档、网页、社交媒体帖子、电子邮件、录音、视频和图像。这些形式的数据比通常存储在数据库和档案中的结构化数据要大得多。

接下来,对原始数据进行处理,将其转换为用来训练算法模型的格式。整体有效性取决于原始数据的数量和质量、算法设计以及反馈和更新数据的不断改进。最终的人工智能模型包含了训练过程中获得的所有知识,从简单的基于规则的系统到复杂的神经网络。

所有这些加起来就形成了巨大的数据量,可能是PB级的,随着新数据的收集,数据量还在不断增长。它可能需要存储几十年,甚至更长时间,特别是如果未来需要这些数据集来训练全新的人工智能模型。

非结构化数据的时代

必须引起重视的是,在过去两年中创建的数据中,超过80%是非结构化的,并且正在以惊人的速度增长。分析师预测,未来五年创建的数据量将是过去十年的两倍,而且超过80%的数据仍然是非结构化的。这加起来就有ZB(数万亿GB)级的数据需要管理!

如今,企业在不知道未来需要什么数据的情况下,被迫就保留多少数据做出重要决定。因此,许多人都采取了尝试保留所有数据的方法,并面临着寻找“不仅价格合理而且易于检索数据”的存储解决方案的问题。

火上浇油的是,人工智能应用对存储系统性能提出了巨大的要求。处理这些庞大的非结构化数据集需要极低的延迟和高性能,而传统存储系统从来没有围绕这些需求而构建,当然也没有人工智能所需的强一致性。

性能和可访问性的规划

目前,世界上大部分数据都存储在基于硬盘的系统上,而这些系统是20多年前开发出来的,是在甚至没有考虑将EB的非结构化数据存储几十年的概念时构思的。当时,数据大多是结构化格式,通常出于合规和法律目的而不是其内在价值而归档的。从历史上看,这种保留的数据几乎不需要额外的处理,可以长期保存在性能较低的存储系统中。现在,所有的企业都希望保持并使其数据易于访问和搜索,并期望再次需要以新的方式进行再加工、再训练或变现。

使这种检索行为更加困难的是,许多企业的信息分布在云和本地的多个系统中。他们通常不知道自己的档案中到底有什么,也不知道自己是否在许多地方持有相同数据的副本。此外,新数据可能在数据中心之外由应用程序或对象(如物理摄像机)生成,并移动到其他地方进行处理。因此,在数据从一个地方移动到另一个地方的整个生命周期中,也必须适应对数据的管理。因此,存储解决方案必须非常灵活,才能满足所有要求,并在云中或本地运行。

对于传统存储系统来说,这是一个不可能的要求,因为它们从来没有为这种数量或类型的数据而设计,也没有达到这样的规模。传统的网络连接存储和对象存储体系结构如果试图超规模化,就会崩溃。包含RAID和复制的替代方案也有类似的问题,因为它们无法提供足够的故障保护或存储效率。此外,管理多个存储设备和不同的存储层会占用宝贵的管理时间。

扩展人工智能驱动的世界

许多组织面临的问题是,如何在不破坏存储预算的情况下,长期保护不断增长的有价值数据?答案就是,现在是时候用负担得起的云原生解决方案实现超大规模化了,这些解决方案是从头开始设计的,旨在为人工智能驱动的社会提供高性能的解决方案。

这些解决方案是用结合闪存和RDMA(远程直接内存访问)网络的大规模扩展架构开发的。在人工智能和机器学习等数据密集型工作负载中,它们的延迟非常低,吞吐量更高,从而实现了超快的应用程序性能和响应能力。这也实现了跨多个系统的高效数据共享和同步,非常适合分布式和混合云,以及本地环境。

另一个改变游戏规则的因素是,超大规模不仅仅是容量问题。最新的创新存储技术还通过自动化数据标注和分类,以及跨不同系统管理数据去重,实现了更快、准确的搜索和检索。

企业越来越多地看到他们所创造的信息和情报中未开发的潜力,但却难以有效地存储它们。现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。

本文作者为昆腾企业产品和解决方案营销部的Tim Sherbak。

相关文章
|
2月前
|
机器学习/深度学习 算法 TensorFlow
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件,然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面,实现用户上传一张动物图片,识别其名称。
92 1
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
|
4天前
|
人工智能 监控 物联网
深度探索人工智能与物联网的融合:构建未来智能生态系统###
在当今这个数据驱动的时代,人工智能(AI)与物联网(IoT)的深度融合正引领着一场前所未有的技术革命。本文旨在深入剖析这一融合背后的技术原理、探讨其在不同领域的应用实例及面临的挑战与机遇,为读者描绘一幅关于未来智能生态系统的宏伟蓝图。通过技术创新的视角,我们不仅揭示了AI与IoT结合的强大潜力,也展望了它们如何共同塑造一个更加高效、可持续且互联的世界。 ###
|
4天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
21 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
4天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
20 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
2月前
|
机器学习/深度学习 人工智能 算法
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
植物病害识别系统。本系统使用Python作为主要编程语言,通过收集水稻常见的四种叶片病害图片('细菌性叶枯病', '稻瘟病', '褐斑病', '稻瘟条纹病毒病')作为后面模型训练用到的数据集。然后使用TensorFlow搭建卷积神经网络算法模型,并进行多轮迭代训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地模型文件。再使用Django搭建Web网页平台操作界面,实现用户上传一张测试图片识别其名称。
119 22
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
|
2月前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
108 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
2月前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
102 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
2月前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
90 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
1月前
|
机器学习/深度学习 移动开发 自然语言处理
基于人工智能技术的智能导诊系统源码,SpringBoot作为后端服务的框架,提供快速开发,自动配置和生产级特性
当身体不适却不知该挂哪个科室时,智能导诊系统应运而生。患者只需选择不适部位和症状,系统即可迅速推荐正确科室,避免排错队浪费时间。该系统基于SpringBoot、Redis、MyBatis Plus等技术架构,支持多渠道接入,具备自然语言理解和多输入方式,确保高效精准的导诊体验。无论是线上医疗平台还是大型医院,智能导诊系统均能有效优化就诊流程。
|
2月前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
54 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台