连接与关系

开发者学堂课程【NiFi 知识精讲与项目实战（第二阶段）：连接与关系】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/706/detail/12542

内容介绍：

一、细节

二、设置

三、负载均衡功能

四、集群连接摘要

五、优先级

六、更改配置和上下文菜单选项

七、弯曲连接

八、操作

NiFi 的连接与关系，NiFi 的连接和关系之前的操作当中，使用了很多次，应该都比较熟悉，但并没有深入的去了解特性。在创建处理器以后，要做的是把不同的处理器连接在一起，形成一个数据流。进行连接是通过处理器上面的这个箭头。

拖动这个键就可以进行连接。

一、细节

每一个链接都需要一个关系来进行路由，这个关系，如果上游处理器只有一个关系默认会是选中的状态，

否则需要手动的去勾选，但是也会出现一种情况，同一个关系，可能会被路由到多个不同链接上面去，就会出现，这个关系里面所涉及到 flow file 会复制多份，发送到不同的连接当中，并不是一个负载均衡的消费，会去复制。

二、设置

setting 设置界面，在这个设置界面当中，

可以设置连接的名称，但是也可以不填写名称，是 connection 关系的名称，还有一个是 flow file，可以在这个设置界面去设置一个到期时间，到期的意思是数据流从创建开始一直超过，一直等待某一个特定的时间以后，还没有被这个下游节点消费。这个时候就会被 NiFi 从的队列当中删除掉，

如上图，默认的是零，零的意思是永不过期，如果把零改成了其的时间，比如改成了一个小时，到一个小时以后队列当中的数据，已经存在了一个小时，还没有被消费，就会被 NiFi 给删除掉，这是队列当中，可以设置的 flow file 到期，另外一个，背压是指 flow file 在队列当中存在限制。主要包含两个方面，一个方面，是 flow fell 数量的限制，另外一方面，是 flow fell 在队列当中，所保存的大小限制，这两个值是可以配置的，如下图两个配置项，第一个配置项指的是 flow 票在队列当中所存在的这个数最大上限的这个数量。右边的这个值，flowfile 在这个队列当中所存在的最大的这个文件大小，

两个数值设置以后，就可以在工作面板当中，看到进度条，

比如设置的是1万和一个 G，当这个值小于60%的时候，也就是6000兆时，它会显示绿色，也就是0%-60%，如果当它的数据量，达到了6000到8500之间时，如果设置是10000，就是6000，6000条数据的时候，也就是61%到85的时候，会显示成黄色，当超过8600条的时候，也就是8600到100%的时候，就会显示红色，这个时候，就可以很明显的来提示 queue 队列当中的数据，快要超过的预支了，在右侧，显示的是 flow file 要在队列当中已经存在的数据的大小，数据大小的百分比。所展示的颜色和刚才所说的，这个数据量是一样的，

可以把鼠标移动到这个进度条上面，移动到这个进度条上面以后，就会显示一些具体的信息，

比如82%，通过这样的信息来进行展示，当的队列完全填满以后，这个链接就会显示一个高亮的红色，

刚才还提到 flow file 到期也有专门的图标，就是时钟的图标，也就是这里面的数据，是会进行到期删除处理的，如果不设置，默认是零，就不会有这个图标。

三、负载均衡功能

负载均衡的功能：

第一个选项是不负载均衡，这是一个默认值，之前在使用的时候，选用的是循环，也就是使用轮循的方式，来负责负载均衡。第二个是按照的属性去进行负载均衡，按照某一个之外的，第三个是单节点，就是指定就由哪个节点来运行，来计算 FlowFile 队列的数据，

另外 nifi 会在重新启动的时候，保存集群当中的所有节点信息，这样当重新启动以后，nifi 集群就不用再重新去分配数据了，会等待所有节点都启动以后，再去进行处理，如果集群打算把某一个节点删掉，必须要手动的，把删掉以后再进行重启这样话，集群也是会把节点信息记录下来.

负载均衡压缩方式，有三种，之前采用的是压缩属性和内容这种方式。默认的是不进行压缩，

负载均衡指示器，如下图图标，

当正在分配数据的时候，会是如下图的图标，

分配完数据以后，就会显示成如下图的图标，就是分配完成了，

四、集群连接摘要

集群还有一个连接的摘要信息可以去查看，查看集群可以选择某一个连接选项卡，点击选项卡里面的 connection details，这样的一个按钮就可以进行查看了，这个面板在之前 summary 面板当中可以进行查看，

是可以通过查看以后可以看到这些数据，到底都在哪一个集群的哪一个节点上分配，每一个节点又分别占用了多少多少的数据。

比如上图当中这个两个节点，一个是431个是4443这个节点，队列里面有124个数据，占用队列的是1%。然后，这个大小是12%，就可以知道，负载均衡的情况，目前来看，从这个图，现在这个负载均衡的情况是非常的平均。

五、优先级

还可以设置优先级，主要指的是 NiFi，在进行队列输入的时候去消费的一个顺序，这个顺序是在的连接选项卡设置当中去进行的。

配置项：

1、首先第一个的意思是会首先处理第一个到达的，最早到达的优先处理，First in first out，先入先出，

2、第二个 news flow file first，是最新的数据后来的数据先进行处理，跟之前的那个正相反，

3、第三个是 oldest flow file first，是根据数据流当中 flow file 创建的时间，如果创建时间越早，就越先去处理它。是默认的选项，排序优先级选项，

4、第四个是 priority at BAT，通过这个属性，Priority 属性来进行优先级的划分，如何来使用，非常的灵活，但是要求有一个条件，必须要为 flow file 设置 priority 的属性值，在这个属性值就可以去进行优先级的排序，它的值越小优先级就越高，最低优先级的优先处理，也就是这个值越小，就是1最先执行，2其次，3再往后就按照这样顺序去进行执行，

（1）在使用这种方式的时候，必须要使用 update alphabet 在的 flow file 当中去添加属性，叫做 priority。如果没有这个属性，就没有办法去进行优先级的排序；

（2）如果有这样的属性，值还是最小的会优先执行，属性值在 flow file 当中都没有，只在某一个或者某几个 flow file 当中出现，就会优先处理有 priority 的 flow file，没有就往后排，

（3）priority 属性值，可以是数字也可以是字母，最好是用数字1到9，如果用字母，就是 a 到 Z，按照这样的顺序来排序，

（4）但是有一种情况，如果 priority 内容不能转化为 long 结构数字，就会使用字符的形式去进行匹配，比如99-100，可以转化为 long 类型。所以99会优先执行，但是如果使用a-99和a-100的时候，a-100就会优先执行，因为用这种字符的方式去匹配，到零这个字符时，0-9要小，就会把它优先执行，判断不出来100 比99更大。所以最灵活的是 pretty 这种方式来进行排序，

注意：如果配置有负载均衡策略时，除了本地队列以外，每一个集群都有一个队列，这时的排序是按照每一个节点，自己独立的顺序去执行，不会考虑整个集群的顺序，所以如果要做全局的排序，这个时候队列就不能使用负载均衡的策略。