大数据和物联网项目带来了独特的存储需求

简介:
  随着物联网和大数据的应用与发展,企业中的数据量每天都在增加,因此需要了解如何满足这些新的IT计划的存储需求。

从冰箱到汽车,物联网涉及几乎所有配置传感器的所有设备,并通过互联网连接将数据传输到中央存储库进行存储。一旦存在,它就成为大数据的一部分,这是对所有信息的分析。

大数据和物联网项目带来了独特的存储需求

然而,大数据的应用远远超出了物联网(IoT)。大数据项目可以分析来自传统或现代数据库甚至非结构化数据的数据。大数据还可以将传感器收集的看似无关的信息与传统数据库中的信息相关联,以提高组织效率。例如,交通运输公司可以在其车辆中使用传感器来引导驾驶员选择提高运输效率和降低燃料成本的路线。

采用大数据或物联网项目的好处可以提高生产力,更好的健康或更加愉快的生活。随着用户对这一概念越来越适应,这些技术允许安装越来越少的设备,数据组织的收集量呈指数增长。人们面临的挑战是如何存储这种数据,因为其在类型和数量上与传统存储数据明显不同。

存储需要一个大数据和物联网项目

从存储的角度来看,物联网和大数据是相似的,但他们有不同的需求。物联网项目的存储响应取决于用例。对于传感器,物联网存储系统需要同时处理来自数百万个传感器的快速输入。因为这些传感器产生的数据通常很小,所以目标存储系统需要存储可能达到数万亿个小文件,而不会影响性能。

但物联网项目的数据还可以包括来自摄像机或无人机的监视图像。此数据类型通常是连续流,因此其存储取决于高带宽和存储,这需要比传感器用例更少但却大得多的大容量文件的能力。而这种挑战更加令人生畏的是,组织为这两种物联网用例都需要提供更大的存储空间。

从大数据的角度来看,存储系统需要访问物联网项目创建的所有或至少大部分数据。组织还可以使用大数据项目来分析现有数据库和其他非结构化数据,以及关联不同的数据集。

到目前为止,大数据最常见的基础是Hadoop文件系统。Hadoop文件系统(HDFS)创建处理服务器集群,并将分析作业分配给集群中任务量最少的节点。其意图是节点需要分析的数据在该节点上都是本地数据。这种情况消除了对昂贵的网络基础设施的需要,并能够使用低成本的服务器级存储设备,而不是昂贵的共享企业级存储设备。

物联网和大数据的数据占用和存储I/O的要求与传统数据中心应用并不相同。首先,物联网数据通常是连续馈送。数据大小可以从小到大,而所需要存储的文件数量可以达到数万亿。这使其更容易快速创建大量的数据,其结果是存在对容量增长的持续需求。

这种增长必须快速扩张,并且不会造成破坏。物联网项目的存储系统还需要成本有效地扩展,以便组织能够长时间存储PB级数据。这需要更低的管理成本和负担。大多数IT人员根本无法管理来自六个不同供应商的十几个存储系统。IT专业人员需要将其存储硬件要求推广到一至三个涵盖一级和二级应用程序的存储系统,以及物联网和大数据创建的大量非结构化数据。

寻找到物联网项目挑战的答案

物联网和大数据的应用为IT专业人员带来了一系列挑战。物联网有两种不同的文件存储需求,大多数组织最终都需要这两者。第一个需要随机摄取数万亿的小文件。第二个需要高得多的带宽流的文件,只是数量少得多,但却大得多。单个存储系统极少提供这两种功能。通常,它们被调整为处理数万亿的小文件或调整为大型的流文件。

从大数据的角度来看,存储系统需要访问物联网项目创建的所有或至少大部分数据。

大数据项目带来了另一组挑战。首先,来自物联网项目的大部分(如果不是全部)数据需要转移到Hadoop集群进行分析。第二,Hadoop集群必须能够访问业务中的传统数据,例如数据库和用户数据。此外,HDFS本身也有挑战。例如,单个节点负责分析作业分配。它还存储群集的所有元数据。如果该节点关闭,整个集群可能会失败。

组织还面临Hadoop的本地存储设计的挑战。通过在节点之间复制数据副本来进行数据保护。大多数组织将选择三方复制作为默认值。这意味着从容量角度看,这些挑战将会乘以三倍,再加上已经驻留在物联网存储系统上的数据,这对容量提出了更高的要求。

Hadoop设计中的另一个挑战是,集群中处理作业的最可用节点实际上可能不会在其上存储数据。这意味着作业将具有处理其能力较差的节点,或者该作业需要将数据传送到最有能力的节点。

然后,其核心问题变成:单个存储系统可以解决所有这些问题吗?答案取决于用例。对象存储系统显然是用于物联网数据的后端存储设备。经验告诉人们,对象存储系统经足够支持Hadoop环境。

对于物联网环境,对象存储系统善于处理高要求的文件对象计数环境。大多数对象存储系统也可以是用于Hadoop环境的后端存储设备,通过Amazon简单存储设备的兼容性,或在某些情况下,本机提供HDFS支持。为Hadoop基础设施提供共享存储后端增加了网络延迟,但它减轻了单个主要控制节点的负担。它还消除了对3倍复制的需要,因为大多数对象存储系统使用基于奇偶校验的数据保护方案,例如擦除编码。

使用对象存储系统的另一个优点是物联网设备可以直接将数据发送到Hadoop环境使用的同一存储设备中。数据的共享意味着容量消耗的减少,并且不浪费等待数据在物联网数据存储设备和Hadoop存储设备之间传输的时间。

该设计面临的挑战是数据中心可能仍然需要为其生产应用环境提供另一个存储系统。组织还可能需要存储和处理来自IP摄像机和类似物联网设备的视频数据。如果是这种情况,那么一些对象存储系统可能并不合适;调整其他存储系统以同时有效地处理大文件和小文件不是最佳的选择。

超越对象存储

数据中心内的协议开始混合。市场上的许多存储系统可以提供各种协议支持,包括对象,网络文件系统(NFS),服务器消息块(SMB),全球互联网小型计算机系统接口(iSCSI)甚至光纤信道(FC)。

每个协议对不同的用例执行良好。例如,采用光纤信道(FC)是关键任务数据库的理想选择,但对于Tier2和Tier3应用程序而言,它们通常被认为过于昂贵。全球互联网小型计算机系统接口(iSCSI)通常是较低优先级应用程序的首选协议。网络文件系统(NFS)非常适合高性能文件共享,并且正在获得作为虚拟机映像存储区域的牵引力。即使对于大数据或物联网项目,有时网络文件系统(NFS)也比对象存储更合适。

大多数数据中心将必须选择至少一个存储系统对其主要存储系统进行补充。虽然对象存储正在引起人们更的关注,但高性能和高性价比的NFS/SMB解决方案正在回归。这些系统像对象存储系统一样向外扩展,通常具有类似的擦除编码类型的数据保护,并支持各种协议。在某些情况下,他们可以执行所有上述操作。

组织选择哪种策略,将取决于他们期望管理的物联网类型和大数据以及项目的范围。另一个考虑因素是其当前存储资产的年限和适用性,以解决物联网和大数据问题。如果数据中心的当前生产存储支持Tier1和Tier2应用程序的高性能要求,则在后端添加对象存储可能是理想的。

如果Tier1和Tier2应用程序的性能要求稍微有些偏差,那么提供所有协议的单一存储基础设施可能会受到关注。虽然这些更通用的系统不能表现得如同集中式系统,但是它们通常为典型的数据中心提供足够的性能。此外,他们提供了整合到单个存储系统的好处。其结果应当是更低的成本,操作更为简单性。

物联网和大数据可以改变组织如何开展业务的方式。这二者的组合可以提供的洞察力使得企业能够显著地改进其创建新产品和响应客户的方式。但这些举措对IT基础设施,特别是存储系统将会产生重大的影响。

IT专业人员需要一个大数据和物联网项目的战略,使存储基础设施充分发挥其潜力。而正确地选择产品可以满足挑战,无论是数量庞大的文件和高容量文件,还是综合存储系统。

 
  作者:佚名
 
来源:51CTO
相关实践学习
钉钉群中如何接收IoT温控器数据告警通知
本实验主要介绍如何将温控器设备以MQTT协议接入IoT物联网平台,通过云产品流转到函数计算FC,调用钉钉群机器人API,实时推送温湿度消息到钉钉群。
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
相关文章
|
1月前
|
存储 算法 数据挖掘
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
本文介绍了2023年中国高校大数据挑战赛赛题B的Python实现方法,该赛题涉及DNA存储技术中的序列聚类与比对问题,包括错误率分析、序列聚类、拷贝数分布图的绘制以及比对模型的开发。
39 1
【2023年中国高校大数据挑战赛 】赛题 B DNA 存储中的序列聚类与比对 Python实现
|
15天前
|
消息中间件 存储 传感器
RabbitMQ 在物联网 (IoT) 项目中的应用案例
【8月更文第28天】随着物联网技术的发展,越来越多的设备被连接到互联网上以收集和传输数据。这些设备可以是传感器、执行器或其他类型的硬件。为了有效地管理这些设备并处理它们产生的大量数据,需要一个可靠的消息传递系统。RabbitMQ 是一个流行的开源消息中间件,它提供了一种灵活的方式来处理和转发消息,非常适合用于物联网环境。
40 1
|
19天前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
26天前
|
存储 缓存 NoSQL
深入解析Memcached:内部机制、存储结构及在大数据中的应用
深入解析Memcached:内部机制、存储结构及在大数据中的应用
|
1月前
|
机器学习/深度学习 设计模式 人工智能
面向对象方法在AIGC和大数据集成项目中的应用
【8月更文第12天】随着人工智能生成内容(AIGC)和大数据技术的快速发展,企业面临着前所未有的挑战和机遇。AIGC技术能够自动产生高质量的内容,而大数据技术则能提供海量数据的支持,两者的结合为企业提供了强大的竞争优势。然而,要充分利用这些技术,就需要构建一个既能处理大规模数据又能高效集成机器学习模型的集成框架。面向对象编程(OOP)以其封装性、继承性和多态性等特点,在构建这样的复杂系统中扮演着至关重要的角色。
46 3
|
25天前
|
存储 分布式计算 算法
"揭秘!MapReduce如何玩转压缩文件,让大数据处理秒变‘瘦身达人’,效率飙升,存储不再是烦恼!"
【8月更文挑战第17天】MapReduce作为Hadoop的核心组件,在处理大规模数据集时展现出卓越效能。通过压缩技术减少I/O操作和网络传输的数据量,不仅提升数据处理速度,还节省存储空间。支持Gzip等多种压缩算法,可根据需求选择。示例代码展示了如何配置Map输出压缩,并使用GzipCodec进行压缩。尽管压缩带来CPU负担,但在多数情况下收益大于成本,特别是Hadoop能够自动处理压缩文件,简化开发流程。
27 0
|
2月前
|
存储 XML JSON
Bond——大数据时代的数据交换和存储格式
【7月更文挑战第12天】Bond是微软开源的可扩展数据格式化框架,适用于服务间通信等场景。它使用IDL定义数据结构,并具备高效性能及良好的版本控制能力。通过描述消息格式并生成代码,Bond简化了多语言间的数据交换,相较于XML和JSON,在效率和支持快速开发方面更具优势。实际应用时需根据需求选择合适的数据交换格式。
|
2月前
|
弹性计算 分布式计算 大数据
MaxCompute产品使用合集之如何将用户A从项目空间A申请的表权限需要改为用户B
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2月前
|
分布式计算 运维 DataWorks
MaxCompute操作报错合集之用户已在DataWorks项目中,并有项目的开发和运维权限,下载数据时遇到报错,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
2月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何查询MaxCompute项目中的所有表及其字段信息
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。

相关产品

  • 物联网平台