开发者社区> 问答> 正文

Flume Taildir Source的特点是什么?

Flume Taildir Source的特点是什么?

展开
收起
游客mm5dulkpivqdo 2021-12-05 22:11:16 416 0
1 条回答
写回答
取消 提交回答
  • (1)断点续传、多目录

    (2)哪个flume版本产生的?Apache1.7、CDH1.6

    (3)没有断点续传功能时怎么做的? 自定义

    (4)taildir挂了怎么办?

    不会丢数:断点续传

    重复数据:

    (5)怎么处理重复数据?

    不处理:生产环境通常不处理,因为会影响传输效率;

    处理:

    自身:在taildirsource里面增加自定义事务

    找兄弟:下一级处理(hive dwd sparkstreaming flink布隆)、去重手段(groupby、开窗取窗口第一条、redis)

    (6)taildir source 是否支持递归遍历文件夹读取文件?

    不支持。但是可以自定义递归遍历文件夹 +读取文件。

    2021-12-05 22:12:24
    赞同 展开评论 打赏
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
What’s new in Hadoop Common and HDFS 立即下载
Spark Streaming-as-aService with Kafka and YARN 立即下载
Why is my Hadoop* job slow 立即下载