唯有超大规模存储系统才能满足人工智能的需求

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
对象存储 OSS,内容安全 1000 次 1年
对象存储 OSS,标准 - 同城冗余存储 20GB 3个月
简介: 现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。

随着世界各国政府努力应对人工智能的深远影响,关于如何规范人工智能的使用以造福社会并防止其滥用的复杂辩论正在升温。“与此同时,人工智能和机器学习工具已经成为我们日常生活中不可或缺的一部分,并将变得更加普遍。”昆腾企业产品和解决方案营销部门的Tim Sherbak表示。

令人欣慰的是,有许多例子表明人工智能的能力正在以积极的方式发展,例如医学利用这些优势来帮助检测癌症,银行和信用卡公司部署解决方案来防止欺诈和诈骗,以及建筑业评估如何使用这些解决方案来提供更快、更高效的建筑设计过程。

人工智能在各行各业的应用正在迅速扩大,以处理和利用以不同格式创建的数据,以及自动化任务、检测异常,并生成新的内容和创意。然而,要成功交付这些结果需要大量的源数据。这正是存储问题的开始,而且还不止于此。

为什么人工智能存储问题日益严重

首先,需要收集大量的原始数据来构建人工智能和机器学习应用程序。但所使用的数据类型带来了进一步的挑战,主要是因为其中大多数是非结构化数据,如文档、网页、社交媒体帖子、电子邮件、录音、视频和图像。这些形式的数据比通常存储在数据库和档案中的结构化数据要大得多。

接下来,对原始数据进行处理,将其转换为用来训练算法模型的格式。整体有效性取决于原始数据的数量和质量、算法设计以及反馈和更新数据的不断改进。最终的人工智能模型包含了训练过程中获得的所有知识,从简单的基于规则的系统到复杂的神经网络。

所有这些加起来就形成了巨大的数据量,可能是PB级的,随着新数据的收集,数据量还在不断增长。它可能需要存储几十年,甚至更长时间,特别是如果未来需要这些数据集来训练全新的人工智能模型。

非结构化数据的时代

必须引起重视的是,在过去两年中创建的数据中,超过80%是非结构化的,并且正在以惊人的速度增长。分析师预测,未来五年创建的数据量将是过去十年的两倍,而且超过80%的数据仍然是非结构化的。这加起来就有ZB(数万亿GB)级的数据需要管理!

如今,企业在不知道未来需要什么数据的情况下,被迫就保留多少数据做出重要决定。因此,许多人都采取了尝试保留所有数据的方法,并面临着寻找“不仅价格合理而且易于检索数据”的存储解决方案的问题。

火上浇油的是,人工智能应用对存储系统性能提出了巨大的要求。处理这些庞大的非结构化数据集需要极低的延迟和高性能,而传统存储系统从来没有围绕这些需求而构建,当然也没有人工智能所需的强一致性。

性能和可访问性的规划

目前,世界上大部分数据都存储在基于硬盘的系统上,而这些系统是20多年前开发出来的,是在甚至没有考虑将EB的非结构化数据存储几十年的概念时构思的。当时,数据大多是结构化格式,通常出于合规和法律目的而不是其内在价值而归档的。从历史上看,这种保留的数据几乎不需要额外的处理,可以长期保存在性能较低的存储系统中。现在,所有的企业都希望保持并使其数据易于访问和搜索,并期望再次需要以新的方式进行再加工、再训练或变现。

使这种检索行为更加困难的是,许多企业的信息分布在云和本地的多个系统中。他们通常不知道自己的档案中到底有什么,也不知道自己是否在许多地方持有相同数据的副本。此外,新数据可能在数据中心之外由应用程序或对象(如物理摄像机)生成,并移动到其他地方进行处理。因此,在数据从一个地方移动到另一个地方的整个生命周期中,也必须适应对数据的管理。因此,存储解决方案必须非常灵活,才能满足所有要求,并在云中或本地运行。

对于传统存储系统来说,这是一个不可能的要求,因为它们从来没有为这种数量或类型的数据而设计,也没有达到这样的规模。传统的网络连接存储和对象存储体系结构如果试图超规模化,就会崩溃。包含RAID和复制的替代方案也有类似的问题,因为它们无法提供足够的故障保护或存储效率。此外,管理多个存储设备和不同的存储层会占用宝贵的管理时间。

扩展人工智能驱动的世界

许多组织面临的问题是,如何在不破坏存储预算的情况下,长期保护不断增长的有价值数据?答案就是,现在是时候用负担得起的云原生解决方案实现超大规模化了,这些解决方案是从头开始设计的,旨在为人工智能驱动的社会提供高性能的解决方案。

这些解决方案是用结合闪存和RDMA(远程直接内存访问)网络的大规模扩展架构开发的。在人工智能和机器学习等数据密集型工作负载中,它们的延迟非常低,吞吐量更高,从而实现了超快的应用程序性能和响应能力。这也实现了跨多个系统的高效数据共享和同步,非常适合分布式和混合云,以及本地环境。

另一个改变游戏规则的因素是,超大规模不仅仅是容量问题。最新的创新存储技术还通过自动化数据标注和分类,以及跨不同系统管理数据去重,实现了更快、准确的搜索和检索。

企业越来越多地看到他们所创造的信息和情报中未开发的潜力,但却难以有效地存储它们。现代存储技术将带来新水平的自动化、性能、安全性和灵活性,这将从人工智能和机器学习数据集中释放出更大的价值,而不会受到过时硬件的限制,以及成本的不断增长。

本文作者为昆腾企业产品和解决方案营销部的Tim Sherbak。

相关文章
|
3月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
387 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
2月前
|
人工智能 IDE 开发工具
拔俗人工智能辅助评审系统:如何用技术为“把关”提效
人工智能辅助评审系统融合大模型、提示工程与业务流程,实现上下文深度理解、场景化精准引导与无缝集成。通过自动化基础审查,释放专家精力聚焦核心决策,提升评审效率与质量,构建人机协同新范式。(239字)
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
拔俗AI人工智能评审管理系统:用技术为决策装上“智能导航”
AI评审系统融合NLP、知识图谱与机器学习,破解传统评审效率低、标准不一难题。通过语义解析、智能推理与风险预判,构建标准化、可复用的智能评审流程,助力项目质量与效率双提升。(238字)
|
12月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
999 55
|
11月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
568 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
8月前
|
人工智能 自然语言处理 API
MCP与A2A协议比较:人工智能系统互联与协作的技术基础架构
本文深入解析了人工智能领域的两项关键基础设施协议:模型上下文协议(MCP)与代理对代理协议(A2A)。MCP由Anthropic开发,专注于标准化AI模型与外部工具和数据源的连接,降低系统集成复杂度;A2A由Google发布,旨在实现不同AI代理间的跨平台协作。两者虽有相似之处,但在设计目标与应用场景上互为补充。文章通过具体示例分析了两种协议的技术差异及适用场景,并探讨了其在企业工作流自动化、医疗信息系统和软件工程中的应用。最后,文章强调了整合MCP与A2A构建协同AI系统架构的重要性,为未来AI技术生态系统的演进提供了方向。
1228 62
|
机器学习/深度学习 算法 TensorFlow
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件,然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面,实现用户上传一张动物图片,识别其名称。
511 1
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
|
9月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
害虫识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了12种常见的害虫种类数据集【"蚂蚁(ants)", "蜜蜂(bees)", "甲虫(beetle)", "毛虫(catterpillar)", "蚯蚓(earthworms)", "蜚蠊(earwig)", "蚱蜢(grasshopper)", "飞蛾(moth)", "鼻涕虫(slug)", "蜗牛(snail)", "黄蜂(wasp)", "象鼻虫(weevil)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Djan
534 1
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
|
10月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
蘑菇识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了9种常见的蘑菇种类数据集【"香菇(Agaricus)", "毒鹅膏菌(Amanita)", "牛肝菌(Boletus)", "网状菌(Cortinarius)", "毒镰孢(Entoloma)", "湿孢菌(Hygrocybe)", "乳菇(Lactarius)", "红菇(Russula)", "松茸(Suillus)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,
1005 11
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
|
机器学习/深度学习 人工智能 算法
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别
宠物识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了37种常见的猫狗宠物种类数据集【'阿比西尼亚猫(Abyssinian)', '孟加拉猫(Bengal)', '暹罗猫(Birman)', '孟买猫(Bombay)', '英国短毛猫(British Shorthair)', '埃及猫(Egyptian Mau)', '缅因猫(Maine Coon)', '波斯猫(Persian)', '布偶猫(Ragdoll)', '俄罗斯蓝猫(Russian Blue)', '暹罗猫(Siamese)', '斯芬克斯猫(Sphynx)', '美国斗牛犬
580 29
【宠物识别系统】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+图像识别