开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据质量是什么?

DataWorks数据质量是什么?

展开
收起
真的很搞笑 2023-10-22 21:10:41 37 0
4 条回答
写回答
取消 提交回答
  • 数据质量概述https://help.aliyun.com/zh/dataworks/user-guide/overview-36?spm=a2c4g.11186623.0.i224

    数据质量帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本、避免任务重新运行带来的资源费用浪费。

    数据质量支持对常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务运行完成后便会触发质量规则校验,帮助您第一时间感知问题数据,按需设置规则的强弱来控制任务是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。

    2023-10-23 14:28:57
    赞同 展开评论 打赏
  • DataWorks的数据质量是一种用于检测和纠正数据错误的功能,它可以帮助您第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。数据质量模块与数据开发调度深度集成,全面支持DataWorks底层离线数据存储的引擎,如MaxCompute、EMR Hive、MC-Hologres、ADB-PG等。DataWorks数据质量规则由调度系统触发,好处是可以在最佳时间点调度数据质量监控规则去扫描表,在节省计算资源的同时可以及时发现问题。如果是强规则,还能自动阻塞下游任务运行,防止问题数据污染下游。

    2023-10-23 11:06:10
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks数据质量是指数据是否符合特定需求和标准,能否真实反映事实情况。数据质量好是数据利用价值的前提。DataWorks数据质量主要从以下几个层面来衡量:

    1. 完整性:数据是否存在缺失值、异常值等问题。
    2. 准确性:数据是否准确反映事实,不存在错误记录。
    3. 唯一性:数据是否存在重复记录。
    4. 一致性:数据在多个系统间是否存在差异。

    通过监控数据质量,可以及时发现和修复数据质量问题,保证数据的准确性和可靠性,提高数据的价值和利用效率。

    2023-10-22 22:07:42
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多