开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费

你好 我想问下, 实时任务读取datahub,如果任务重启是否会存在重复消费

展开
收起
十一0204 2023-04-03 23:16:19 213 0
3 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    一般是断点续传 很低的重复消费可能性。 此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-04-05 13:34:23
    赞同 展开评论 打赏
  • 如果任务重启,可能会存在重复消费的情况。 为了避免这种情况的发生,可以采取以下措施:

    1. 在任务重启时,检查消费的数据是否已经被处理过,如果已经处理过,则跳过该数据,避免重复消费。

    2. 在消费数据时,使用幂等性处理,即使同一条数据被消费多次,也不会对结果产生影响。

    3. 在数据源端,使用数据分区的方式,将数据按照一定的规则进行分区,每个分区只被一个任务消费,避免多个任务同时消费同一分区的数据。

    通过以上措施,可以有效避免实时任务重启时出现重复消费的情况。

    2023-04-04 09:29:30
    赞同 展开评论 打赏
  • 会重复消费,可以使用sparkstream和kafka来记录消费点位。

    2023-04-04 08:39:42
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载