开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

这边使用dataworks离线同步时,源端es,对端也是es出现了上述脏数据是为什么

image.png

展开
收起
游客6vdkhpqtie2h2 2022-09-23 15:36:52 867 0
4 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    原因: 就是同步任务在任务运行过程中遇到插件的所有异常都会作为脏数据进行统计。 * 数据类型转换(源端表和目的表字段类型不匹配,大概率) * 源端表数据过长 * 数据源异常 * Reader/Writer插件异常 * 数据中有表情符

    解决方法: 增大脏数据限制条数,扩大阈值,容忍脏数据(源端脏数据仍存在,不同步到目的端,日志会显示脏数据记录,任务不会报错)。

    2022-11-26 08:12:43
    赞同 展开评论 打赏
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    数据同步任务出现脏数据怎么办详见下面链接:

    https://developer.aliyun.com/article/751514?spm=a2c6h.12873639.article-detail.12.2e142edcqDtYxn&share_token=b07f0d76-1ea7-4c15-a37e-f03ccfc4d8e8&tt_from=copy_link&utm_source=copy_link&utm_medium=toutiao_android&utm_campaign=client_share - 【全新系列】DataWorks百问百答-阿里云开发者社区 - 今日头条

    2022-11-25 15:08:16
    赞同 展开评论 打赏
  • 同步任务在任务运行过程中遇到插件的所有异常都会作为脏数据进行统计。 - 数据类型转换(源端表和目的表字段类型不匹配,大概率) - 源端表数据过长 - 数据源异常 - Reader/Writer插件异常 - 数据中有表情符 增大脏数据限制条数,扩大阈值,容忍脏数据(源端脏数据仍存在,不同步到目的端,日志会显示脏数据记录,任务不会报错)。 image.png

    具体可以参考

    2022-11-24 23:29:33
    赞同 展开评论 打赏
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    这里对于你的问题不难理解,但是你的截图实在是太小,完全看不清内容,不好判断具体是什么问题导致的,那么基于此首先建议你可以参考官方文档【离线同步任务配置】,文档中涉及到多种离线同步任务配置方案来实现数据同步的源端到目标端数据库的需求,比如通过向导模式配置离线同步任务,参考文档:https://help.aliyun.com/document_detail/137718.html,或者通过脚本模式配置离线同步任务,参考文档:https://help.aliyun.com/document_detail/137717.html,以及通过OpenAPI创建离线同步任务多种方式选择,参考文档:https://help.aliyun.com/document_detail/321443.html,希望可以帮到你,如果你觉得没有用的话可以提供更清晰的图片方便问题的分析。

    2022-11-23 21:18:17
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载