DataWorks在目的数据源中发现了超过这个时间的数据?

DataWorks离线同步读取kafka配置了endDateTime来指定所要同步的数据的截止范围,但是在目的数据源中发现了超过这个时间的数据?

展开
收起
真的很搞笑 2023-09-06 14:09:34 91 分享 版权
1 条回答
写回答
取消 提交回答
  • kafkareader在读数据的时候,是以batch的形式进行的,在读到的一批数据中,如果有超过endDateTime的,则停止同步,但是超出endDateTime的这部分数据也会被写入到目的端数据源。您也可以通过skipExceedRecord配置项来指定是否同步超出的数据。详细使用方法见Kafka Reader。【不建议设置为不同步,会有造成丢数据】您可以通过配置kafka的max.poll.records配置项来指定一次拉取数据的量,结合并发数,来控制可能超出的数据量。超出的数据量 < max.poll.records * 并发数
    https://help.aliyun.com/document_detail/146663.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-09-06 15:09:22
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理