开发者社区> 问答> 正文

Flink Kafka作业异常重启,从Checkpoint恢复后重复推送数据部分数据如何处理?

Flink ETL作业生成实时DWD宽表数据,写入Kafka中。 当ETL作业的TM出现异常,自动重启恢复后,作业虽然能从上一次Checkpoint状态恢复,但是会出现重复推送部分数据,导致下游DWS相关作业都要进行去重处理,增加下游作业成本。 想了下解决方案,扩展Kafka Sink,初始化的时候,先读取当前State中记录的位置后面的所有数据,然后写入的时候进行去重处理,恢复到正常位置后,清理掉这部分数据。 想问下大佬们,这种处理方式是否合理,或者有没其他更好的解决方案? *来自志愿者整理的flink邮件归档

展开
收起
游客sadna6pkvqnz6 2021-12-07 16:55:37 2666 1
1 条回答
写回答
取消 提交回答
  • checkpoint 只能保证 state 的 exactly once,但是单条数据可能重复处理多次,如果是 sink 输出多次的话,或许你可以看一下 TwoPhaseCommitSinkFunction 相关的,这篇文章有一个相关的描述[1]

    [1] https://www.ververica.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka*来自志愿者整理的flink

    2021-12-07 20:21:39
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载