开发者社区> 问答> 正文

如何使用Taildir Source采集文件夹数据到hdfs?

如何使用Taildir Source采集文件夹数据到hdfs?

展开
收起
xin在这 2021-12-10 22:47:53 461 0
1 条回答
写回答
取消 提交回答
  • 使用Taildir Source采集文件夹数据到hdfs

    Taildir Source 是Apache flume1.7新推出的,但是CDH Flume1.6做了集成

    Taildir Source是高可靠(reliable)的source,他会实时的将文件偏移量写到json文件中并保存到磁盘。下次重启Flume时会读取Json文件获取文件O偏移量,然后从之前的位置读取数据,保证数据零丢失

    Taildir Source可同时监控多个文件夹以及文件。即使文件在实时写入数据。

    Taildir Source也是无法采集递归文件下的数据,这需要改造源码

    Taildir Source监控一个文件夹下的所有文件一定要用.*正则

    2021-12-10 22:48:15
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
海量数据分布式存储——Apache HDFS之最新进展 立即下载
零基础实现Flume收集网站日志数据到MaxCompute 立即下载
《Apache Flink-重新定义计算》PDF下载 立即下载