你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费

你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费

展开
收起
十一0204 2023-04-03 23:16:19 322 分享 版权
3 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    一般是断点续传 很低的重复消费可能性。 此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-04-05 13:34:23
    赞同 展开评论
  • 如果任务重启,可能会存在重复消费的情况。 为了避免这种情况的发生,可以采取以下措施:

    1. 在任务重启时,检查消费的数据是否已经被处理过,如果已经处理过,则跳过该数据,避免重复消费。

    2. 在消费数据时,使用幂等性处理,即使同一条数据被消费多次,也不会对结果产生影响。

    3. 在数据源端,使用数据分区的方式,将数据按照一定的规则进行分区,每个分区只被一个任务消费,避免多个任务同时消费同一分区的数据。

    通过以上措施,可以有效避免实时任务重启时出现重复消费的情况。

    2023-04-04 09:29:30
    赞同 展开评论
  • 会重复消费,可以使用sparkstream和kafka来记录消费点位。

    2023-04-04 08:39:42
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

收录在圈子:
+ 订阅
还有其他疑问?
咨询AI助理