【Flume中间件】(5)实时监控多个文件实现断点续传

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
云原生网关 MSE Higress,422元/月
注册配置 MSE Nacos/ZooKeeper,118元/月
简介: 【Flume中间件】(5)实时监控多个文件实现断点续传

实时监控多个文件实现断点续传

我们之前使用的是exec进行监控一个文件是否有追加数据,这时候会面临问题就是一旦该机器宕机,那么该阶段的数据就会丢失,也不是丢失,就是如果flume停止了,但是此时数据还在进行追加,因为tail -F是读取文件的最后10行,那么之前的数据就会没有读取到,但是更改tail 的参数让flume从头读,这样是不会丢失数据,但是会产生重复数据。

所以有一种解决办法就是我们监控的同时记录下当前读取文件的位置信息,并把它保存到磁盘,这样flume任务再次开启时,就会读取该json文件,继续上一次读取的位置。

a1.sources = r1
a1.sinks = k1
a1.channels = c1
a1.sources.r1.type = taildir
# 文件读取位置信息路径
a1.sources.r1.positionFile = /opt/module/flume/position/position.json
# 配置两个组,分别监听两个文件
a1.sources.r1.filegroups = f1 f2
a1.sources.r1.filegroups.f1 = /home/hadoop/data3/file1
a1.sources.r1.filegroups.f2 = /home/hadoop/data3/file2
a1.sinks.k1.type = logger
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

我们可以看到能够同时监听两个文件的追加数据。

我们还可以采用正则来进行匹配多个文件。

a1.sources.r1.type = taildir
a1.sources.r1.channels = c1
a1.sources.r1.positionFile = /opt/module/flume/position/position.json
a1.sources.r1.filegroups = f1
a1.sources.r1.filegroups.f1 = /home/hadoop/data3/.*.txt

上面配置的意思就是监听data3下所有以.txt结尾的文件。


目录
相关文章
|
8月前
|
存储 分布式计算 监控
【Flume】Flume 监听日志文件案例分析
【4月更文挑战第4天】【Flume】Flume 监听日志文件案例分析
|
5月前
|
存储 JSON 监控
【Flume大揭秘】揭秘Flume断点续传的黑科技,让你的数据传输从此告别中断,稳如老狗!
【8月更文挑战第24天】Apache Flume是一款由Cloudera开发的分布式、可靠且高可用的日志数据收集系统,特别适用于大规模日志数据的采集、聚合与传输。其断点续传功能在遇到故障或中断时尤为关键,能确保数据传输从上次停止的地方继续进行而无需重头开始。
123 4
|
8月前
|
SQL 分布式计算 监控
Flume实时读取本地/目录文件到HDFS
Flume实时读取本地/目录文件到HDFS
235 7
|
8月前
|
存储 监控 数据库
【Flume】 Flume 断点续传原理分析
【4月更文挑战第4天】【Flume】 Flume 断点续传原理分析
|
监控 Java
64 Flume采集文件到HDFS
64 Flume采集文件到HDFS
69 0
|
负载均衡 中间件
【Flume中间件】(7)Flume详细传输流程
【Flume中间件】(7)Flume详细传输流程
128 10
【Flume中间件】(7)Flume详细传输流程
|
中间件
【Flume中间件】(6)Flume事务
【Flume中间件】(6)Flume事务
94 6
【Flume中间件】(6)Flume事务
|
开发框架 前端开发 JavaScript
ASP .Net Core 中间件的使用(一):搭建静态文件服务器/访问指定文件
ASP .Net Core 中间件的使用(一):搭建静态文件服务器/访问指定文件
|
缓存 中间件
【Flume中间件】(8)channel选择器副本机制
【Flume中间件】(8)channel选择器副本机制
195 1
【Flume中间件】(8)channel选择器副本机制
|
负载均衡 中间件 大数据
【Flume中间件】(10)sink组负载均衡
【Flume中间件】(10)sink组负载均衡
152 10