DataWorks数据质量是什么?

DataWorks数据质量是什么?

展开
收起
真的很搞笑 2023-08-07 20:03:29 104 分享 版权
2 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    数据质量是指数据是否符合特定需求和标准,能否真实反映事实情况。数据质量好是数据利用价值的前提。

    DataWorks数据质量主要从以下几个层面来衡量:

    完整性:数据是否存在缺失值、异常值等问题。

    准确性:数据是否准确反映事实,不存在错误记录。

    唯一性:数据是否存在重复记录。

    一致性:数据在多个系统间是否存在差异。

    可信度:数据源的可靠性,经过的验证流程等。

    及时性:数据处理能否及时面向业务需求。

    可理解性:数据是否具备明确的定义和标签信息。

    有效性:数据是否真正服务于相关分析和决策。

    2023-08-09 21:37:49
    赞同 展开评论
  • 【数据质量DQC】
    数据质量以数据集(DataSet)为监控对象。目前,数据质量支持EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute数据表和DataHub实时数据流的监控。当离线数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量支持管理历史校验结果,您可以对数据质量进行分析和定级。
    【DQC配置】

    您可以在“监控规则”中通过匹配表分区表达式,给表添加“模板规则”或“自定义规则”校验数据产出是否符合预期,通过“规则强弱”,“异常程度”决定规则是否阻塞下游任务执行,避免下游数据受到污染。
    规则创建完成后,您可以通过“试跑”来测试表规则是否符合预期。
    规则创建完成后,您需要“关联调度”,为规则关联调度节点后,调度节点执行便会触发数据质量监控规则校验。
    如果您需要第一时间知道数据质量校验异常情况,您可以点击“订阅管理”,选择手机,邮箱,或者钉钉告警,第一时间接受报警信息,之后的规则触发情况,您可以在“我的订阅”中看到。
    如果您需要查看某张表或者某个节点历史数据质量校验情况,您可以选择“任务查询”面板进行查询。,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-08-08 18:55:35
    赞同 展开评论

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

还有其他疑问?
咨询AI助理