开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks数据质量如何评价?

DataWorks数据质量如何评价?

展开
收起
真的很搞笑 2023-10-22 21:10:35 75 0
4 条回答
写回答
取消 提交回答
  • 数据质量是数据分析结论有效性和准确性的基础。本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。https://help.aliyun.com/zh/dataworks/use-cases/overview-1?spm=a2c4g.11186623.0.i258

    数据质量的评估
    数据质量可以从完整性、准确性、一致性和及时性共四个角度进行评估,详情请参见数据质量评估标准。

    b73afa03c686382b0c7f4203fa6ad174_p50681.png

    在本教程中,您将学会通过数据质量风险监控,保证数据的完整性、准确性、一致性;通过数据及时性监控,保证数据的及时性。

    完整性

    完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。在本教程中,您需要重点关注数据的生产环节(MaxCompute外部表引用的表格存储数据)和加工环节(数据仓库CDM及ADS层)中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。

    准确性

    准确性是指数据记录中信息和数据是否准确、不存在错误或异常。例如,在本教程中,如果UV、PV数值小于0,则明显是错误数据。

    一致性

    对于不同的业务流程和节点,同一份数据必须保持一致性。例如表province字段中如果有浙江、ZJ两种表述,在您group by province时会出现两条记录。

    及时性

    及时性主要体现在最终ADS层的数据可以及时产出。为保证及时性,您需要确保整条数据加工链路上的每个环节都可以及时产出数据。本教程将利用DataWorks智能监控功能保证数据加工每个环节的及时性。

    2023-10-23 14:33:46
    赞同 展开评论 打赏
  • 在阿里云的DataWorks中,数据质量的评价主要通过以下几个维度进行:

    1. 数据准确性:这是评价数据质量的最基本的标准,主要检查数据是否存在错误,例如数据类型错误、数据值超出范围等。

    2. 数据一致性:主要检查数据是否在同一时间同一地点具有相同的值。例如,如果在一个系统中,同一个用户的余额在不同的页面显示不一致,那么这就是数据一致性的问题。

    3. 数据完整性:主要检查数据是否完整,是否存在缺失的数据。例如,如果一个系统中,用户的个人信息不完整,那么这就是数据完整性的问题。

    4. 数据时效性:主要检查数据是否是最新的。例如,如果一个系统中,商品的价格不是最新的,那么这就是数据时效性的问题。

    5. 数据可用性:主要检查数据是否可以被正常访问和使用。例如,如果一个系统中,用户无法查询到自己想要的数据,那么这就是数据可用性的问题。

    DataWorks通过以上的几个维度,对数据的质量进行全面的评价,帮助用户了解数据的质量状况和问题。

    2023-10-23 11:12:47
    赞同 展开评论 打赏
  • 数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集(DataSet)为监控对象,目前支持MaxCompute数据表和DataHub实时数据流的监控。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量分析和定级。在流式数据场景下,数据质量能够基于DataHub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级以及告警频次设置,最大限度减少冗余报警。
    https://help.aliyun.com/document_detail/85362.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-10-23 08:05:40
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks数据质量评价是指对数据的完整性、准确性、唯一性和一致性等方面的评价。以下是一些评价数据质量的方法:

    1. 数据完整性:检查数据是否存在缺失值、重复值、异常值等问题。
    2. 数据准确性:检查数据是否准确反映事实,是否存在错误记录。
    3. 数据唯一性:检查数据是否存在重复记录。
    4. 数据一致性:检查数据在多个系统间是否存在差异。
    5. 数据完整性:检查数据是否存在异常值、重复值、缺失值等问题。
    6. 数据准确性:检查数据是否准确反映事实,是否存在错误记录。
    7. 数据唯一性:检查数据是否存在重复记录。
    8. 数据一致性:检查数据在多个系统间是否存在差异。
    2023-10-22 22:08:54
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多