数据质量是数据分析结论有效性和准确性的基础。本文为您介绍数据质量保障教程的业务场景以及如何衡量数据质量的高低。https://help.aliyun.com/zh/dataworks/use-cases/overview-1?spm=a2c4g.11186623.0.i258
数据质量的评估
数据质量可以从完整性、准确性、一致性和及时性共四个角度进行评估,详情请参见数据质量评估标准。
在本教程中,您将学会通过数据质量风险监控,保证数据的完整性、准确性、一致性;通过数据及时性监控,保证数据的及时性。
完整性
完整性是指数据的记录和信息是否完整、不缺失。数据的缺失包括数据记录的缺失(表行数异常)和记录中某字段信息的缺失(字段出现空值)。在本教程中,您需要重点关注数据的生产环节(MaxCompute外部表引用的表格存储数据)和加工环节(数据仓库CDM及ADS层)中表行数是否大于0、表行数波动是否正常以及字段是否出现空值或重复的情况。
准确性
准确性是指数据记录中信息和数据是否准确、不存在错误或异常。例如,在本教程中,如果UV、PV数值小于0,则明显是错误数据。
一致性
对于不同的业务流程和节点,同一份数据必须保持一致性。例如表province字段中如果有浙江、ZJ两种表述,在您group by province时会出现两条记录。
及时性
及时性主要体现在最终ADS层的数据可以及时产出。为保证及时性,您需要确保整条数据加工链路上的每个环节都可以及时产出数据。本教程将利用DataWorks智能监控功能保证数据加工每个环节的及时性。
在阿里云的DataWorks中,数据质量的评价主要通过以下几个维度进行:
数据准确性:这是评价数据质量的最基本的标准,主要检查数据是否存在错误,例如数据类型错误、数据值超出范围等。
数据一致性:主要检查数据是否在同一时间同一地点具有相同的值。例如,如果在一个系统中,同一个用户的余额在不同的页面显示不一致,那么这就是数据一致性的问题。
数据完整性:主要检查数据是否完整,是否存在缺失的数据。例如,如果一个系统中,用户的个人信息不完整,那么这就是数据完整性的问题。
数据时效性:主要检查数据是否是最新的。例如,如果一个系统中,商品的价格不是最新的,那么这就是数据时效性的问题。
数据可用性:主要检查数据是否可以被正常访问和使用。例如,如果一个系统中,用户无法查询到自己想要的数据,那么这就是数据可用性的问题。
DataWorks通过以上的几个维度,对数据的质量进行全面的评价,帮助用户了解数据的质量状况和问题。
数据质量是支持多种异构数据源的质量校验、通知、管理服务的一站式平台。数据质量以数据集(DataSet)为监控对象,目前支持MaxCompute数据表和DataHub实时数据流的监控。当离线MaxCompute数据发生变化时,数据质量会对数据进行校验,并阻塞生产链路,以避免问题数据污染扩散。同时,数据质量提供历史校验结果的管理,以便您对数据质量分析和定级。在流式数据场景下,数据质量能够基于DataHub数据通道进行断流监控,第一时间告警给订阅用户,并且支持橙色、红色告警等级以及告警频次设置,最大限度减少冗余报警。
https://help.aliyun.com/document_detail/85362.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks数据质量评价是指对数据的完整性、准确性、唯一性和一致性等方面的评价。以下是一些评价数据质量的方法:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。