数据质量漫谈

简介: 解决数据质量问题没有银弹,数据质量管理不单纯是一个概念、是一项技术、一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。


1.1. 数据质量问题无处不在

基本上每个用数据的同学,都遇到过以下类似的问题。

  • 表没有按时产出,影响下游,严重的甚至可能影响线上效果。
  • 打点缺失,看了报表才发现数据对不上。
  • 数据统计出来,uv大于pv,很尴尬。
  • 数据产出暴增,本来1000万的数据变成了3000万。
  • 字段里面的枚举值和注释里面的对不上,没人能解释。
  • 某些维度缺失,没法做进一步的数据分析。
  • 做了一通分析,发现结果很离谱,一点点向前分析,发现打点有问题。
  • ……

以上都是数据质量的问题。本文尝试找到一种方法,能够尽可能的发现数据质量问题并解决之。

1.2. 数据标准

谈到数据质量,就必须了解评价数据质量的维度。DAMA UK 提出了数据质量的六个核心维度,见图1。

注:DAMA International (国际数据管理协会)成立于1980年,是一个由技术和业务专业人员组成的国际性数据管理专业协会,作为一个非营利的机构,独立于任何厂商,旨在世界范围内推广并促进数据管理领域的概念和最佳实践,为数字经济打下理论和实践基础。全球会员近万人,在世界48个国家成立有分会。

  • 完整性Completeness:完整性是指数据信息信息是否存在缺失的状况,常见数据表中行的缺失,字段的缺失,码值的缺失。比如虽然整体pv是正确的,但在某个维度下,只有部分打点,这就是存在完整性的问题。不完整的数据所能借鉴的价值就会大大降低,也是数据质量问题最为基础和常见的问题。常见统计sql:count( not null) / count(*)
  • 有效性Validity :有效性一般指范围有效性、日期有效性、形式有效性等主要体现在数据记录的规范和数据是否符合逻辑。规范指的是,一项数据存在它特定的格式,如:手机号码一定是11位的数字;逻辑指的是,多项数据间存在着固定的逻辑关系,如:PV一定是大于等于UV的。
  • 准确性Accuracy:准确性是指数据记录的信息是否存在异常或错误。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用最大值和最小值的统计量去审核。
  • 及时性Timeliness:及时性是指数据从开始处理到可以查看的时间间隔。及时性对于数据分析本身的影响并不大,但如果数据建立的时间过长,就无法及时进行数据分析,可能导致分析得出的结论失去了借鉴意义。比如:实时业务大盘数据,及时反映业务关键指标的情况,暴露业务指标的异常波动,机动响应特殊突发情况都需要数据的及时更新和产出。某些情况下,数据并不是单纯为了分析用而是线上策略用,数据没有及时产出会影响线上效果。
  • 一致性Consistency:一致性是指相同含义信息在多业务多场景是否具有一致性,一般情况下是指多源数据的数据模型不一致,例如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,例如:数据编码不一致、命名及含义不一致、分类层次不一致、生命周期不一致等。
  • 唯一性Uniqueness: 在数据集中数据不重复的程度。唯一数据条数,和总数据条数的百分比。 比如 count(distinct business key) / count(*),一般用来验证主键唯一性。

1.3. 数据的生命周期

  • 数据接入:接入上游表输入或者其它数据源的数据。
  • 数据加工:编写sql生成目标数据表。
  • 数据产出:定时调度任务生成数据表。
  • 数据应用:下游数据分析、报表等应用数据。

在上面任何一个环节中,都可能出现数据质量的问题,提升数据质量需要从数据接入、数据加工、数据产出、数据应用、效果跟踪等全流程进行把控,全局观很重要,不拘一点,才能看的更全面。

相关文章
|
19天前
|
数据采集 传感器 数据管理
读数据质量管理:数据可靠性与数据质量问题解决之道04收集与清洗
【11月更文挑战第8天】本文介绍了数据收集的重要性和挑战,以及数据收集的方法和工具。数据收集是数据质量管理的基础,能够确保数据的完整性和准确性。然而,数据来源的多样性和数据丢失等问题也带来了挑战。文中还详细描述了内部系统、外部数据和传感器数据的收集方法,以及数据清洗的目标和流程,包括数据审查、问题数据处理和数据验证等步骤。
|
6月前
|
数据采集 监控 大数据
大数据时代的数据质量与数据治理策略
在大数据时代,高质量数据对驱动企业决策和创新至关重要。然而,数据量的爆炸式增长带来了数据质量挑战,如准确性、完整性和时效性问题。本文探讨了数据质量的定义、重要性及评估方法,并提出数据治理策略,包括建立治理体系、数据质量管理流程和生命周期管理。通过使用Apache Nifi等工具进行数据质量监控和问题修复,结合元数据管理和数据集成工具,企业可以提升数据质量,释放数据价值。数据治理需要全员参与和持续优化,以应对数据质量挑战并推动企业发展。
1584 3
|
3月前
|
数据采集 数据可视化 数据处理
数据清洗是确保数据质量和准确性的关键步骤
数据清洗是确保数据质量和准确性的关键步骤
107 4
|
7月前
|
数据采集 存储 监控
大数据治理:确保数据质量和合规性
【5月更文挑战第30天】大数据治理涉及数据分类、访问控制和质量监控,以确保数据安全和合规性。企业需保护个人隐私,防止数据泄露,并遵守各地法规,如GDPR和CCPA。技术实践包括数据加密、匿名化和严格访问控制。管理策略则强调制定政策、员工培训和法律合作。全面的数据治理能保障数据质量,驱动组织的创新和价值增长。
268 0
|
7月前
|
数据采集 存储 消息中间件
数据质量监控系统设计
数据质量监控系统设计
|
7月前
|
数据采集 存储 监控
聊聊大数据质量监控的那些事
聊聊大数据质量监控的那些事
221 0
|
数据采集 监控 数据管理
数据质量最佳实践(5):利用质量分和排行榜提升企业数据质量【Dataphin V3.12】
在数据质量最佳实践(3):通过质量治理工作台,实现质量问题的跟踪和处理这篇文章中,我们详细的介绍了如何通过治理工作台,对系统出现的一个一个具体质量问题进行治理。 但是对于企业整体的数据质量情况,我们该如何评估呢?以及如何寻找当前企业的数据质量短板,并有针对性的进行改进和提升呢? 在Dataphin V3.12版本中,质量新增了质量分的能力,可以给数据表和质量规则配置打分权重和打分方式,从而获得全局、数据源、项目、负责人、数据表等维度的质量打分评估,帮助CDO判断企业整体的数据质量情况和数据质量问题的分布,从而有针对性的提升企业整体的数据质量水平。
757 1
|
存储 数据采集 安全
【数据治理】什么是数据治理模型?
【数据治理】什么是数据治理模型?
|
数据采集 存储 机器学习/深度学习
数据治理的三度修炼
所有企业都需要计划如何使用数据,以便在整个业务中一致地处理和使用数据,以支持业务结果。
数据治理的三度修炼
|
数据采集 数据管理 数据处理
数据质量最佳实践(3):通过质量治理工作台,实现质量问题的跟踪和处理
在Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展这篇文章中,我们详细的介绍了Dataphin数据质量模块的产品核心能力和产品使用演示。 在实际的质量管理中,做完了事前的质量规则的配置和事中的质量规则校验后,会产生大量的质量问题待治理项,这时候需要有一个完整的工作流程去管理质量问题,实现从质量规则配置,到质量问题发现,到质量治理修复问题,最终提升数据质量的完整PDCA流程。