NiFi 数据来源 | 学习笔记

简介: 快速学习 NiFi 数据来源

开发者学堂课程【NiFi 知识精讲与项目实战(第一阶段):NiFi 数据来源  】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/705/detail/12522


NiFi 数据来源  

内容介绍:

一、数据来源

二、事件详情

三、谱系图


一、数据来源

1、本课程讲解 NiFi 数据来源展示功能。这个功能实际上是对 NiFi 监控功能的补充,NiFi 对他所摄取读取的每一个 FlowFile 数据都会把细节保存下来。当数据通过 NiFi 服务进行处理、转换、路由、拆分、聚合或者分发操作的时候,这些具体的实践信息都会存储在 Provenance Repository 中。为了搜索和查询这些详细的信息,可以从全局菜单中选择 Data Provenance 按钮进行查看。下图Provenance

image.png

这个列表会展示最近的1000个事件信息。里面有一个 Search 按钮,允许搜索指定的某一个处理器,可以按照文件名或 UUID 或其他特定字段进行搜索。

2 nifi .properties 文件中提供了配置这些属性中的哪些属性可编入索引或可作搜索条件的功能。此外,配置文件还允许您指定将被索引的 FlowFile 属性。因此,您可以指定哪些属性对您的特定数据流很重要,并使这些属性可搜索。


二、事件详情

1、在列表当中,可以查看具体事件的详细信息,查询搜索以后,可以点击在列表中最左侧 i 按钮查看详细信息然后就会弹出详细信息的面板,

image.png

在这个面板当中,可以看到事件发生的时间以及它所影响的 FlowFile 文件,还有事件所执行的所在的 process 处理器,以及事件花费的时间和 NiFi 数据已经存在的总时间。

2ATTRIBUTES 选项卡展示了 FlowFile 上所有的属性信息,在这个列表当中,可以看到 FlowFile 所有的属性值,以及这些属性的历史值,也可以看到有哪些属性是因为这个事件产生变化的。

image.png

另外,也可以点击右侧的复选框,可以查看已经改变的属性。如果 FlowFile 只有少量属性,这个复选框可以不用选择,当 FlowFile 属性值非常多的时候,可以点击这个按钮,查看变更的属性值。

3 CONTENT 选项卡。

image.png

在这个选项卡当中展示了 FlowFile 的内容信息以及 FlowFile 内容存储的目录信息。如果事件把 FlowFile 的内容做了变更,可以在左侧或右侧分别查看原始的输入值或改变以后的输出值。另外,在选项卡的重播部分有一个按钮,叫做 Replay。它可以将 FlowFile 重新触发,这样就可以模拟之前一模一样的执行流程,可以用这个功能实现错误的复现,场景的复现。这个按钮没有在图中展示是因为面板区域有限,如果向下滚动,会发现在 replay 下面,有一个按钮,就是 replay 按钮。

image.png

此选项卡向我们提供有关存储 FlowFile content 的内容存储库位置的信息。如果事件修改了 FlowFile 的内容,我们将看到 input claim 和 outputdaim。如果数据格式是 NiFi 了可以识别的可以呈现的数据格式我们可以选择下载或查看NiFi 内部的内容


三、谱系图

1、在数据栏面板当中,还有一个功能是谱系图,除了可以查看详细信息之外,还可以通过列表当中的谱系图按钮,查看所有涉及到的 FlowFile 复读关系。在下面这个截图当中可以看到

   image.png

这里面展示的有 FlowFile 以及这个 FlowFile 产生的一系列事件。可以右键点击任何事件,查看事件的详细信息。还有一些特殊的事件类型需要注意,比如说看到 JOIN、FORK 或者说是 ClONE 这样的事件,可以右键选择 Parents 或Expand 这样的按钮 ,查看他的父文件或子文件信息。在左下角还有一个滑块,通过这个滑块可以实现模拟时间流动的功能,来复现 FlowFile 处理时间节点的流程。通过拖动这个滑块图形会产生变化,展示了在某一个具体时间信息它运行的哪一个步骤这里面展示的就是具体的时间节点,当拖动方块的时候,时间会产生变化,同时图标也会产生特定的变化。

2、下面进行一个数据来源的展示,可以在处理器当中右键点击选中 data Provenance 按钮。

image.png

然后就可以查看 provenance 事件列表。

image.png

在这个事件列表当中,可以点击左侧的 info 按钮查看,查看事件所涉及到的具体详细信息。DETAILS 按钮展示了事件基础的信息。

image.png

在 ATTRIBUTES 界面展示了 FlowFile 涉及的一些属性。

image.png

在 CONTENT 面板当中展示了 FlowFile 文件的 content 内容,

image.png

可以通过 view 按钮查看 FlowFile 文本内容,hello world agin 就是做测试的时候发送的原始数据。右侧是经过处理后输出的文本内容,同样可以通过点击 view 按钮进行查看,也可以对文本内容进行 download 下载。此外在 content 面板当中,往下拖动面板可以看到 replay 按钮。

image.png

如果点击 reply,NiFi 处理器会重新执行当前事件来复现 NiFi 流程,这对我们进行问题的定位和复现有帮助。

3、刚才提到还有谱系图的功能,谱系图也就是家族图,可以在列表右侧有三个圆圈,点击以后可以看到谱系图。

image.png

这个图标就是 FlowFile 在执行这个节点上创建的位置节点,可以通过拖动左下角的方块,演示 FlowFile 不同的时间节点上处理的状态。通过拖动可以看图是产生变化的,随着时间的推移详细的记录了 FlowFile 完整的流程。

相关文章
|
1月前
|
存储 安全 前端开发
Elasticsearch 使用误区之六——富文本内容写入前不清洗
【10月更文挑战第6天】在大数据和全文搜索领域,Elasticsearch(简称ES)凭借其强大的搜索和分析能力,成为众多企业和开发者的首选工具。然而,在实际应用中,很多开发者在使用ES时存在一些误区,其中之一便是富文本内容写入前不进行清洗。本文将深入探讨这一误区,并提供一些实用的清洗策略和最佳实践。
54 3
|
6月前
|
JSON NoSQL MongoDB
实时计算 Flink版产品使用合集之要将收集到的 MongoDB 数据映射成 JSON 对象而非按字段分割,该怎么操作
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
3月前
|
网络安全
信息收集简介
信息收集简介
40 2
|
存储 数据可视化 搜索推荐
分布式系列教程(26) -分布式日志搜集工具Elasticsearch简介
分布式系列教程(26) -分布式日志搜集工具Elasticsearch简介
109 0
|
6月前
|
存储 Java 关系型数据库
【Kafka+Flume+Mysql+Spark】实现新闻话题实时统计分析系统(附源码)
【Kafka+Flume+Mysql+Spark】实现新闻话题实时统计分析系统(附源码)
110 1
【Kafka+Flume+Mysql+Spark】实现新闻话题实时统计分析系统(附源码)
|
数据建模 关系型数据库
Elasticsearch之数据建模实战通过应用层join实现用户与博客的关联
Elasticsearch之数据建模实战通过应用层join实现用户与博客的关联
|
存储 搜索推荐 大数据
大数据数据存储的搜索引擎Elasticsearch的基础概念的映射
在大数据存储领域,搜索引擎Elasticsearch已经成为了一种非常受欢迎的解决方案。作为一名阿里云开发者社区的博主,本文将会从大数据存储的角度,深入探讨Elasticsearch中的映射概念。
47 0
|
监控 开发者
网站流量日志分析—数据入库—宽表、窄表由来概述|学习笔记
快速学习网站流量日志分析—数据入库—宽表、窄表由来概述
279 0
网站流量日志分析—数据入库—宽表、窄表由来概述|学习笔记
|
分布式数据库 Hbase
《HBase 基本知识介绍及典型案例分析》电子版地址
HBase 基本知识介绍及典型案例分析
83 0
《HBase 基本知识介绍及典型案例分析》电子版地址
|
数据采集 存储 JSON
数据预处理-系统监控web界面-系统运行情况数据来源|学习笔记
快速学习数据预处理-系统监控web界面-系统运行情况数据来源
226 0
数据预处理-系统监控web界面-系统运行情况数据来源|学习笔记
下一篇
无影云桌面