Apache Flume- 案例-监控采集文件夹变化-执行演示&;注意事项|学习笔记

简介: 快速学习 Apache Flume- 案例-监控采集文件夹变化-执行演示&;注意事项

开发者学堂课程【Flume 基础应用实战-企业全场景解决方案 Apache Flume- 案例-监控采集文件夹变化-执行演示&;注意事项】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/715/detail/12769


Apache Flume- 案例-监控采集文件夹变化-执行演示 &;注意事项

打开参考资料: Spooldir-hdfs.conf

打开服务器 cd 到 conf 路径下,

图片1.png

把采集方案编辑一下:

输入:vim spool-hdfs.cong

把里面的采集方案复制到服务器当中,复制的时候一定要告诉自己哪些可以复制,哪些不用复制,比如注释、启动命令不用复制对,把三个组件的名字、具体详细的描述以及下面复制过来,然后打开服务器做一个粘贴。

然后稍微再做一个验证:

图片2.png

验证完后进行保存,保存完之后cd..返回到根目录做启动,启动目录命令也在这里,还是要指定清楚采集方案和配置。

图片3.png

但是这一个启动命令跟之前不一样,虽然都指定的 conf 文件名字但是里面,不再叫做 --conf。

对比:

图片4.png

区别在于之前叫做 --conf--conf-file,现在叫做 -c-f,上面的命令是完整版,下面是精简版。

复制命令后,回到服务器上执行。来验证一下在当前路径下有没有 Logs,现在pwd 输出一下。

图片5.png

接下来就可以监控这个文件夹,来做一个启动,启动完之报了一个错误。

说监控的目录不存在,出现了一个差错,应该把 log1 改为 logs1,改完重新启动。

但现在并没有任何数据的输出,因为他监控的这个文件夹下面并没有文件产生,它的需求是只要有文件产生,它才会执行数据的采集,把数据上传到 hdfs 这个路径下。打开 hdfs 的页面50070,发现现在也没有这个文件夹,说明它现在就没有工作,接下来怎么来模拟这个需求?

比如说在当下这个路径下,有几个脚本、几个文件,来做一个CP复制。

图片6.png

以文件夹的角度来说,相当于它下面新增加了一个文件,这时候回车,可以发现有信息显示,有输出,在快速的收集到数据 hdfs上,然后打开 hdfs 做一个刷新,发现多了一个 flume events。

图片7.png

这个时间就是动态获取的,而且跟结构相关。

这里面,就是大量采集到的时间,里面每个文件都特别小,与滚动方式有关。

图片8.png

可以调整一下滚动方式。

这就是这一个需求的一个具体实现,重点介绍了 flume 的两个组件,一个是它官方自带的叫做 spooldir source,可以来监控文件夹变化,一个是 hdfs sink。

小插曲:

图片9.png

可以发现刚才添加进去的文件叫做 zookeeper.out,但是被 flume 收集完之后,它叫做 zookeeper.out.completed,说明它用一个标识来表明文件被收集过了,那接下来如果再来一个同名文件,会怎么样?

图片10.png

可以看见这里也产生了输出,好像文件往上上传没有任何问题,发现名字也没有重命名,感觉差不多,从效果上看数据也正常的移走了,但是接下来问题比较严重。

如果上传一个同名的文件之后,再去复制其他的文件。

输入:Cp startZk.sh logs2/

会发现已经没有信息输出了,这就是这个组件最要注意的地方——不能往监控目录中重复丢同名文件,就是说它监视的文件,如果有同名的产生,它会报错、罢工,后面再有文件,它就不会再进行数据收集了。

小插曲的小结:

spooldir source

(1)注意其监控的文件夹下面不能有同名文件的产生;

(2)如果有报错且罢工后续就不再进行数据的监视采集了;

(3)在企业中通常给文件追加时间戳命名的方式保证文件不会重名(也可采用其他方式,保证不重名即可)。

相关文章
|
3月前
|
运维 安全 Unix
使用JSch远程部署flume采集点
使用JSch远程部署flume采集点
|
3月前
|
存储 运维 关系型数据库
带你读《Apache Doris 案例集》——04 星云零售信贷 基于 Apache Doris 的 OLAP 演进之路(1)
带你读《Apache Doris 案例集》——04 星云零售信贷 基于 Apache Doris 的 OLAP 演进之路(1)
带你读《Apache Doris 案例集》——04 星云零售信贷  基于 Apache    Doris 的 OLAP  演进之路(1)
|
3月前
|
SQL 缓存 监控
带你读《Apache Doris 案例集》——03 Apache Doris 在金融壹账通指标中台的应用实践(2)
带你读《Apache Doris 案例集》——03 Apache Doris 在金融壹账通指标中台的应用实践(2)
113 1
带你读《Apache Doris 案例集》——03  Apache   Doris  在金融壹账通指标中台的应用实践(2)
|
3月前
|
存储 SQL 大数据
带你读《Apache Doris 案例集》—— 01 招商信诺人寿 基于 Apache Doris 统一 OLAP 技术栈实践(1)
带你读《Apache Doris 案例集》—— 01 招商信诺人寿 基于 Apache Doris 统一 OLAP 技术栈实践(1)
167 0
|
3月前
|
SQL 运维 数据挖掘
带你读《Apache Doris 案例集》——03 Apache Doris 在金融壹账通指标中台的应用实践(1)
带你读《Apache Doris 案例集》——03 Apache Doris 在金融壹账通指标中台的应用实践(1)
|
3月前
|
Shell
Flume【问题记录 01】【at org.apache.flume.node.Application.main(Application.java:xxx) 类问题整理+其他类型问题总结】【避坑指南】
【2月更文挑战第17天】Flume【问题记录 01】【at org.apache.flume.node.Application.main(Application.java:xxx) 类问题整理+其他类型问题总结】【避坑指南】
166 2
|
3月前
|
Java Linux
Flume【环境搭建 01】CentOS Linux release 7.5 安装配置 apache-flume-1.9.0 并验证
【2月更文挑战第16天】Flume【环境搭建 01】CentOS Linux release 7.5 安装配置 apache-flume-1.9.0 并验证
81 0
|
3月前
|
数据采集 分布式计算 Java
【数据采集与预处理】流数据采集工具Flume
【数据采集与预处理】流数据采集工具Flume
90 8
|
3月前
|
存储 测试技术 API
Apache Hudi 负载类Payload使用案例剖析
Apache Hudi 负载类Payload使用案例剖析
101 4
|
3月前
|
监控 API Apache
实战!配置DataDog监控Apache Hudi应用指标
实战!配置DataDog监控Apache Hudi应用指标
52 0

推荐镜像

更多