开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks脏数据篇是什么?

DataWorks脏数据篇是什么?

展开
收起
真的很搞笑 2023-12-03 17:13:04 68 0
3 条回答
写回答
取消 提交回答
  • 数据质量帮助您及时感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,阻断脏数据向下游蔓延。避免任务产出问题数据,影响正常使用和业务决策。本文示例配置表数据质量监控规则,保障产出的表数据符合预期,为您介绍数据质量的基本使用。https://help.aliyun.com/zh/dataworks/user-guide/getting-started-with-data-quality?spm=a2c4g.11186623.0.i5

    2023-12-05 12:18:58
    赞同 1 展开评论 打赏
  • 脏数据通常指在数据同步、迁移等操作过程中,由于各种原因产生的对业务没有意义、格式非法或者同步出错的数据。例如,如果在写入目标数据源的过程中发生异常,那么该条数据就会被视为脏数据。

    在DataWorks中,脏数据问题可能出现的原因有多种。一种常见的情况是源端的字段类型和目的端的字段类型不匹配,比如源端第47个字段值为"java"的String类型,而目的端对应的写入字段为Long类型,这种情况下就可能出现脏数据。

    2023-12-04 17:52:43
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks脏数据篇主要讨论的是在数据集成过程中,源端数据与目标端数据的不一致或不符合预期的数据,即脏数据。脏数据是对业务没有意义,格式非法或者同步过程中出现问题的数据。例如,单条数据写入目标数据源过程中发生了异常,则此条数据就被归类为脏数据。

    对于脏数据问题,您有以下几种处理方式:

    1. 控制脏数据产生:您可以在同步任务配置时通过错误记录数控制(脏数据控制)来控制同步过程中是否允许脏数据产生。此外,还支持设置脏数据条数的阈值。当脏数据超过指定的条数时,任务会失败并退出。

    2. 容忍脏数据:如果您选择容忍脏数据,即使源端的脏数据仍然存在,也不会同步到目标端。在这种情况下,日志会显示脏数据记录,但任务不会报错。

    3. 定位并修复源端脏数据:根据运行日志,您可以定位到源端的脏数据,并进行相应的修复。

    在处理脏数据的过程中,如果遇到同步任务出现报错:"脏数据条数检查不通过",一种可能的解决方法是增大脏数据限制条数,扩大阈值,容忍脏数据。另一种方法是定位并修复源端脏数据。

    2023-12-03 18:06:30
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多