序言
通过物联网(IoT)连接的设备出现在很多场合——汽车、工厂、家庭、零售店和可穿戴设备等等。在后台,这些“东西”通过它们所安装的传感器传输大量数据,而且它们不停地这样做,不断变化的数据流引发了新服务的创造、货币化机会、更好的效率和更具竞争力的商业模式。
来自物联网设备中传感器的数据被数以万亿计的设备、人员、组织和场所使用。虽然这个万亿节点的网络带来了许多挑战,但机会也很多。能够收集、处理和分析巨量物联网信息的组织可以以过去从未想象过的方式将自己与竞争对手区分开来。
一、早期的传感器世界
从汽车到心脏起搏器,来自传感器的数据源源不断地从设备流到网络,有时又流回到设备。这些海量数据使得物联网成为大数据的主要贡献者。
第一批传感器出现在几十年前。这些早期的传感器被设计用来检测事件或数量的变化,然后提供相应的输出——通常是电信号或光信号。这种传感器很快出现在日常用品中,比如触摸式电梯按钮,当你触摸底座时变暗或变亮的灯,它们不一定相互连接,也不一定连接到互联网。像这样的传感器多年来已被用于许多领域:制造,医疗保健,能源,机器人,汽车,飞机和航空航天等。
为了捕捉和收集来自传感器的信号,实时数据库应运而生,记录并存储来自传感器的基于时间的历史数据。数据存储针对时间相关分析进行了优化,这种分析是在数据存储之后进行的,它们的设计目的是回答以下问题:“今天每小时单位产量的标准差是多少?”
实时数据技术通常使用制造标准,并从数百种传感器类型和其他实时系统中捕获事件数据。这些专用的数据库可以在恶劣的条件下部署,例如生产车间,即使主数据存储不可用,他们也可以继续捕获和存储数据。这种软件通常包括用于报告和监控历史数据的补充工具,并且可以检测趋势或相关性。当问题被标记时,系统可以提醒操作员潜在的问题。这曾经是一种从传感器数据中产生价值的高级方法。但随着物联网的兴起,传感器的用途以及来自传感器的数据流变得更加多样化。
二、物联网中的大数据爆炸与传感器
传感器面临的最大挑战是在检测到信号之后。此时,必须决定:
•在哪里收集生成的数据?
•保留什么数据,哪些可以丢弃?
•如何使用?
自2012年以来,两大变化震撼了传感器世界,并导致物联网市场迅速成熟:
•传感器缩小。技术的进步创造了微型传感器,微机电系统(MEMS)等技术的应用使得传感器足够小,可以嵌入衣服等独特的地方。
•通信改善。无线连接和通信技术已经发展到几乎所有类型的电子设备都可以提供无线数据连接的程度。这使得嵌入连接设备中的传感器能够通过网络快速发送和接收数据。
如今,企业正投入巨资来捕获和存储尽可能多的数据。但是更大的挑战是在数据仍在运动时,尽可能接近事件发生时,从数据中提取有价值的信息。如果您在数据存储后等待分析数据,则需要很长时间才能做出反应。这可能意味着错过了新的商业机会,或者输给了竞争对手。
在许多方面,物联网承诺创造一个高效的世界。但要实现这一目标,就需要不断分析发生在我们周围的基于传感器和机器通信的事件状态。
为了充分利用物联网中的数据流,组织必须了解大量的物联网数据需要过滤、聚合、比较、对比、插值和外推的方式。需要考虑的主要因素有:
•数量大。您能否快速访问、集成、存储、处理和分析今天的海量数据?
•多样性。新型物联网数据仍在不断涌现。您能否动态管理所有不同类型的数据和各种格式(结构化、非结构化、半结构化)?
•速度快。想想手机摄像头、社交媒体和智能手表等设备生成文本、图像和视频数据的速度有多快。这只是数据的一小部分。你能迅速采取行动捕捉和分析所有这些数据吗?
•准确性。物联网数据的原始形式是“脏的”——它没有经过过滤、验证、分析或清理。要使物联网数据可信,以便将其用作数据驱动决策的基础,就需要数据质量和数据治理等数据管理标准。更新的技术,如区块链,也可以用来确保原始数据源是可信的。
三、事件流处理与物联网
事件流处理在处理来自互联世界的物联网数据方面起着至关重要的作用。它可以:
•检测关注的事件并触发适当的行动。事件流处理实时精确定位复杂模式。例如,这可能是由一个人在其移动设备上的行为或银行交易期间的异常活动产生的。事件流处理可以快速检测潜在的欺诈活动,或者识别发送实时、个性化营销报价的主要机会。
•监控聚合信息。事件流处理连续监视来自设备和传感器数据,寻找趋势、相关性或指定问题的已定义阈值。反过来,可以提醒操作员在损坏发生前采取行动。
•清理和验证传感器数据。传感器数据是出了名的脏。由于网络问题,单个传感器常常缺少时间戳。当多个传感器作为一个整体进行监控时,传感器之间的格式和传输定时可能会有所不同。因此,传感器数据可能不完整或包含不一致的值。延迟的数据可能表示潜在的传感器故障,也可能只是移动网络中断的结果。只有相关技术直接嵌入到数据流才可以检测模式并检查数据问题的错误性质。
•实时预测和优化操作。流式数据与分析相结合揭示了支持实时决策的模式。先进的分析和数学算法是利用丰富的历史存储数据,可以编码到数据流,对流数据连续评估。例如,一列过境列车的到达信息可以通过一系列计算来确定它的到达将如何影响其他车辆。实时计算可以将列车在即将到来的车站晚点对旅客的影响降到最低。
一些行业实例
从物联网中获取传感器数据并将分析见解实时应用于物联网的机会多种多样,涉及许多不同的行业。下面举几个例子。
(1)智慧城市
智慧城市基础设施监控大量传感器数据。通过对物联网传感器数据实时应用分析模型,城市可以:
•提高城市系统的效率,如高速公路和红绿灯。例如,物联网基础设施可以检测到交通拥堵,然后通过向城市电网发送特殊指令并提醒通勤者选择其他路线,从而瞬间优化交通流。
•根据现有条件和预计需求选择最佳供电源,优化电网。
•监测供水系统以防止故障,提醒工作人员注意泄漏,并更好地了解用水对周围环境的影响。
•管理基础设施,如路灯管理、停车管理、房地产和空间优化以及公共安全和安保。
(2)公用事业
电力行业广泛使用传感器来捕捉每一条潜在的信息——从发电到传输、分配和零售。这些数据有助于公用事业公司为客户提供全天候的正常运行时间。物联网分析可以检测性能不佳的资产,并在昂贵的设备出现故障之前预测问题。物联网技术还帮助公用事业公司整合分布式能源,如太阳能和风能。它还通过捕获和分析来自第三方供应商和能源客户的数据,帮助解决行业中断和长期收入增长的问题。
(3)零售商
当他们在网上和商店购物时,没有人想拥有与同一个零售商完全不同的体验。零售商可以使用物联网分析为客户构建更好的全渠道体验,从而提高收入和市场份额。例如,零售商可以使用WiFi、信标和RFID技术来检测店内行为。当他们结合和分析这类流数据以及其他信息(如库存、社交媒体聊天和在线商店用户配置文件)时,他们可以在进行购买决策时发送个性化的优惠。
四、如何进行事件流数据处理
为了对流数据进行实时决策,必须以非常高的吞吐量速度处理和提供对数据的深入分析。
事件流处理可以快速地破译和分析数据流中大量连续流动的事件。它不是对存储的数据运行查询,而是存储数据管理和分析流程,并通过这些查询流化大量数据—过滤、规范化、聚合数据并实时检测模式。这种方法减少了派生洞察的延迟,并实时影响操作。
事件流处理使用以下技术来管理和理解流数据:
•采集。适配器从边缘处或边缘后面的各种源采集数据流。这是流式分析体系结构的第一步,流式分析体系结构收集来自不同来源的数据,以分析其模式和其他见解。
•评估。存储由传感器生成的所有数据是不切实际的,特别是因为许多数据是不相关的。事件流处理可以在数据到达时标准化数据,应用转换和规则来确定是否需要额外的下游处理。否则,可以快速丢弃数据(或事件),而不占用额外的处理带宽。
•聚合。假设您想要检测欺诈性礼品卡使用。您可以设置一个业务规则,即“告诉我何时在任何销售点(POS)机器上的礼品卡兑换价值在一小时内超过2000元。”事件流处理可以在滑动时间窗口中连续计算必要的指标,以了解礼品卡兑换的实时趋势。
•相关性。通过事件流处理,您可以连接到运动中的多个数据流(几秒钟、几分钟或几天),以查看发生的一系列事件。例如,您可以看到条件A后面跟着B,然后是C。例如,如果您连接到1000个POS终端的礼品卡兑换流,事件流处理可以连续地识别将不同POS终端相互比较的条件。比如“如果一家商店的礼品卡赎回超过其他商店平均值的150%,则生成警报。”
•时间分析。事件流处理使用时间概念作为主要的计算元素,这对于理解变化率和动量很重要的场景至关重要。例如,活动的突然激增可能是潜在欺诈。事件流处理可以在浪涌发生时检测到它们。比如规则是,“如果四小时内礼品卡的销售和激活次数大于该商店前一周的平均每日激活次数,停止批准激活。”与传统计算模型不同,传统计算模型旨在总结和汇总历史数据——事件流处理在数据发生变化时询问和回答这些问题。
事件流处理过程示例:
•源系统通过从高速源接收事件的流数据适配器将事件发布到事件流处理引擎。
•事件流处理服务器运行一个或多个事件流处理实例,根据定义的查询和编码并加载以执行的模型处理事件。
•目标应用程序通过适配器订阅和接收关注的事件–因此它们可以实时侦听要执行的关注的事件。
五、活动中的事件流处理
事件流处理是一个与其他软件集成的嵌入式引擎。随着数据的不断处理和分析,它将流式传输到其他应用程序以进行深入分析。下图描述了使用事件流处理的物联网体系结构的工作原理。
①设备和与之连接的设备不断地从传感器、传输、事件和人类行为中产生数据。这些数据通过网络实时发送,通常是连续发送,并在边缘的物联网网关上进行处理。数据可以在边缘(靠近数据源)进行分析,并进行智能过滤,以便仅将必要的数据传输回集中式计算设施,在该设施中,事件流处理引擎正在分析传入的数据。
②所有数据都被发送到实时数据库系统和/或基于云的聚合器,这些聚合器将这些信息作为时间戳数据进行收集和存储。事件流处理连接到这些实时数据库或聚合器,接收连续的数据流。
③事件流处理处理所有接收到的数据或事件。这包括集成不同的流数据源和单个数据元素、规范化数据、清理数据并解决诸如丢失数据、不同速率的不同格式或不同传输协议等问题。它还使用业务规则、高级分析模型和文本数据提取的组合来聚合数据并检测关注的模式。这将详细的数据流转换成有意义的事件和关于发射设备状态的信息。
④当事件流处理检测到一个事件并且需要采取行动时,负责人或系统工作流订阅关注的事件并触发操作系统来执行指定的行动。这可以包括停止机器、更改温度设置、激活车辆制动器、更改路灯强度、发送营销报价等。可以连续监视事件的趋势、相关性、计算的阈值或其他统计信息。如果找到,系统可以触发由授权人员执行的手动操作。
⑤与步骤4并行工作,所有事件(或仅选择与业务需求相关的事件)都流式处理并存储在专用存储系统中。由于传感器和设备生成的数据量很大,这通常需要像Hadoop这样的大容量存储系统。
⑥为了理解模式的变化或新出现的事件,混合使用了来自现有系统的历史数据以及直接来自事件流处理引擎的实时流式事件。
⑦当识别出复杂的模式时,它们会被引入到实时流式处理环境中,以不断改进事件流处理的逻辑和分析规则。流模型通过结合分析模型、业务规则和流数据的各种转换,提供实时见解,并使软件能够跟上不断变化的条件。事件流处理还提供反馈机制,从物联网数据中获取持续价值。
六、感知理解处理物联网数据
事件流处理是物联网流数据处理的核心,可以从物联网的巨大数据流中获得价值。事件流处理将流数据与分析和可视化集成,就能覆盖整个分析生命周期,形成基于流数据的数据应用模式。
•感知有价值的数据。通过对物联网事件数据执行实时数据管理,过滤噪音信号,可以专注于与业务相关的内容。
•理解数据中的信号。通过挖掘和分析整个互联生态系统中的物联网数据,并将其与添加上下文的其他来源的数据相结合,可以在事件发生时检测关注的模式并理解它们的含义,给出需要的洞察。
•采取快速正确行动。通过在物联网分析的整个生命周期内一致地协作和部署分析,从访问和准备数据到进行探索性分析、构建和比较机器学习模型以及实施预测模型,可以采取对您的业务最有利的行动。