DataWorks离线同步读取kafka配置了endDateTime来指定所要同步的数据的截止范围,但是在目的数据源中发现了超过这个时间的数据?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
kafkareader在读数据的时候,是以batch的形式进行的,在读到的一批数据中,如果有超过endDateTime的,则停止同步,但是超出endDateTime的这部分数据也会被写入到目的端数据源。您也可以通过skipExceedRecord配置项来指定是否同步超出的数据。详细使用方法见Kafka Reader。【不建议设置为不同步,会有造成丢数据】您可以通过配置kafka的max.poll.records配置项来指定一次拉取数据的量,结合并发数,来控制可能超出的数据量。超出的数据量 < max.poll.records * 并发数
https://help.aliyun.com/document_detail/146663.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。