DataWorks看看除了 Column 'record_time' cannot be null 这个是脏数据 还有别的脏数据不 ?我容忍了300条脏数据(实际源数据里只有85条), 同步后还是比源数据少11条
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
除了Column 'record_time' cannot be null以外,DataWorks在同步过程中可能会发现其他的脏数据,例如数据格式不正确、数据类型不匹配、数据缺失等等。这些脏数据会影响同步的准确性,因此建议您在同步前尽可能清洗和预处理源数据。
至于同步后比源数据少11条,可能是因为在同步过程中,发现了一些不符合要求的数据,例如脏数据、重复数据、无效数据等等,这些数据被DataWorks自动过滤掉了。如果您希望DataWorks将所有数据都同步到MaxCompute,可以尝试调整脏数据限制条数或者容忍脏数据的阈值。
十一条脏数据应该都打印出来了 都是这个原因 ,
脏数据不能写入目标端,设置容忍300条 相当于 300条写不进去 任务还是成功,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
除了Column 'record_time' cannot be null以外,DataWorks还可能检测到其他的脏数据。如果您容忍了300条脏数据,但是同步后还是比源数据少11条,可能是因为在同步过程中还存在其他的数据丢失或错误。建议您检查DataWorks的同步日志,以确定是否存在其他的数据丢失或错误。此外,您也可以尝试调整DataWorks的同步参数,以减少数据丢失的可能性。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。