DataWorks这个是脏数据 还有别的脏数据不 ?

DataWorks看看除了 Column 'record_time' cannot be null 这个是脏数据 还有别的脏数据不 ?我容忍了300条脏数据(实际源数据里只有85条), 同步后还是比源数据少11条

展开
收起
真的很搞笑 2023-10-16 20:56:33 83 分享 版权
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    除了Column 'record_time' cannot be null以外,DataWorks在同步过程中可能会发现其他的脏数据,例如数据格式不正确、数据类型不匹配、数据缺失等等。这些脏数据会影响同步的准确性,因此建议您在同步前尽可能清洗和预处理源数据。
    至于同步后比源数据少11条,可能是因为在同步过程中,发现了一些不符合要求的数据,例如脏数据、重复数据、无效数据等等,这些数据被DataWorks自动过滤掉了。如果您希望DataWorks将所有数据都同步到MaxCompute,可以尝试调整脏数据限制条数或者容忍脏数据的阈值。

    2023-10-17 16:59:31
    赞同 展开评论
  • 十一条脏数据应该都打印出来了 都是这个原因 ,image.png
    脏数据不能写入目标端,设置容忍300条 相当于 300条写不进去 任务还是成功,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-17 07:00:17
    赞同 展开评论
  • 除了Column 'record_time' cannot be null以外,DataWorks还可能检测到其他的脏数据。如果您容忍了300条脏数据,但是同步后还是比源数据少11条,可能是因为在同步过程中还存在其他的数据丢失或错误。建议您检查DataWorks的同步日志,以确定是否存在其他的数据丢失或错误。此外,您也可以尝试调整DataWorks的同步参数,以减少数据丢失的可能性。

    2023-10-16 21:41:32
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理