「数据治理那点事」系列之三:不忘初心方得始终,数据质量管理要稳住!

简介: 本文主要讲数据治理中的重要工作:数据质量管理。 从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。

作者 | 蒋珍波

本文是数据治理系列文章的第三篇,主要讲数据治理中的重要工作:数据质量管理。

我将从数据质量管理的目标,质量问题产生的根源,讲到如何评估数据质量,如何贯彻数据质量管理流程,最后从取与舍两个角度谈谈我对质量问题的一些个人观点。

一、数据质量管理的目标

数据质量管理主要解决「数据质量现状如何,谁来改进,如何提高,怎样考核」的问题。

为什么这篇文章的标题中有“不忘初心方得始终”这几个字呢。因为最开始的关系型数据库时代,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。时至今日,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。

为什么数据质量问题如此重要?

因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。

如果一个组织根据劣质的数据分析业务、进行决策,那还不如没有数据,因为通过错误的数据分析出的结果往往会带来“精确的误导”,对于任何组织来说,这种“精确误导”都无异于一场灾难。

根据统计,数据科学家和数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上,在数据质量不高的环境下,做数据分析可谓是战战兢兢。可见数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内刻不容缓的优先任务。

二、数据质量问题从何而来?

做数据质量管理,首先要搞清楚数据质量问题产生的原因。原因有多方面,比如在技术、管理、流程方面都会碰到。但从根本上来时,数据质量问题产生的大部分原因在于业务上,也就是管理不善。许多表面上的技术问题,深究下去,其实还是业务问题。

我在给客户做数据治理咨询的时候,发现很多客户认识不到数据质量问题产生的根本原因,局限于只想从技术角度来解决问题,希望通过购买某个工具就能解决质量问题,这当然达不到理想的效果。经过和客户交流以及双方共同分析之后,大部分组织都能认识到数据质量问题产生的真正根源,从而开始从业务着手解决数据质量问题了。

从业务角度着手解决数据质量问题,重要的是建立一套科学、可行的数据质量评估标准和管理流程。

三、数据质量评估的标准

当我们谈到数据质量管理的时候,我们必须要有一个数据质量评估的标准,有了这个标准,我们才能知道如何评估数据的质量,才能把数据质量量化,并知道改进的方向,比较改进后的效果。

目前业内认可的数据质量的标准有:

准确性: 描述数据是否与其对应的客观实体的特征相一致。

完整性: 描述数据是否存在缺失记录或缺失字段。

一致性: 描述同一实体的同一属性的值在不同的系统是否一致

有效性: 描述数据是否满足用户定义的条件或在一定的域值范围内。

唯一性: 描述数据是否存在重复记录。

及时性: 描述数据的产生和供应是否及时。

稳定性: 描述数据的波动是否是稳定的,是否在其有效范围内。

以上数据质量标准只是一些通用的规则,这些标准是可以根据数据的实际情况和业务要求进行扩展的,如交叉表校验等。

四、数据质量管理流程

要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。

首先需要梳理和分析数据质量问题,摸清楚数据质量的现状;然后针对不同的质量问题选择适合的解决办法,制定出详细的解决方案;接着是问题的认责,追踪方案执行的效果,监督检查,持续优化;最后形成数据质量问题解决的知识库,以供后来者参考。上述步骤不断迭代,形成数据质量管理的闭环。

很显然,要管理好数据质量,仅有工具支撑是远远不够的,必须要组织架构、制度流程参与进来,做到数据的认责,数据的追责。这和我在第一篇文章《数据治理:那些年,我们一起踩过的坑》中阐述的观点是一致的,大家可以参考那篇文章。

五、数据质量管理的取与舍

企业也好,政府也好,从来不是生活在真空之中,而是被社会紧紧地包裹。解决任何棘手的问题,都必须考虑到社会因素的影响,做适当的取舍。

第一个取舍:数据质量管理流程。前面讲到的数据质量管理流程,是一个相对理想的状态,但是不同的组织内部,其实施的力度都是不同的,以数据追责为例:在企业内部推行还具有一定的可行性,但是在政府就很难适用。因为政府部门的大数据项目,牵头单位无论是谁,很可能没有相关的权限。举个例子:你很难想像市经信委去跟市政府办公厅进行数据质量的问责。这与数据治理的建设方在整个大的组织体系中的话语权有很大的关系。这就是我们做数据治理必须接受的现实。遇到这种问题,我们只能迂回地做些事情,尽量弥补某个环节缺失带来的不利影响,比如和数据提供方一起建立起数据清洗的规则,对来源数据做清洗,尽量达到可用的标准。

第二个取舍:不同时间维度上的数据采取不同的处理方式。从时间维度上划分,数据主要有三类:未来数据、当前数据、历史数据。在解决不同种类的数据质量问题时,需要考虑取舍之道,采取不同的处理方式。

相关文章
WK
|
Python
pyhon设计规范
Python设计规范涵盖代码布局、命名、注释、函数编写、模块化设计等方面,确保代码的可读性和可维护性。具体包括:使用4个空格缩进、行宽不超过79字符、变量和函数名全小写、类名首字母大写,采用驼峰命名法,添加内联注释和文档字符串,函数长度不超过20行,单一职责,明确返回值,模块化设计避免循环依赖,减少全局变量使用,遵循PEP 8规范。遵循这些规范有助于编写清晰、可读、可维护的Python代码。
WK
557 1
Hutool 工具:轻松校验手机号、身份证号、邮箱、统一社会信用代码、车牌号、车架号等信息,省时省心!
Hutool 工具:轻松校验手机号、身份证号、邮箱、统一社会信用代码、车牌号、车架号等信息,省时省心!
|
Linux C++ Windows
linux ln链接命令
linux ln链接命令
2755 0
|
运维 监控 数据可视化
软件质量保障体系建设
所谓的愿景,就是长期规划,我们要到哪里去的问题。一个组织或者团队,是一定要有愿景的。在软件质量保障领域,所谓的愿景概括来说就四个字:保质提效。
软件质量保障体系建设
|
机器学习/深度学习 人工智能 项目管理
【机器学习】集成学习——Stacking模型融合(理论+图解)
【机器学习】集成学习——Stacking模型融合(理论+图解)
5573 1
【机器学习】集成学习——Stacking模型融合(理论+图解)
|
安全 测试技术 数据库
测试流程规范--准入准出规则
为了加强测试部软件测试的质量控制及与测试相关部门、人员更好理解测试各阶段的准入/准出条件而建立的准入/准出规范。
2845 0
测试流程规范--准入准出规则
|
10月前
|
存储 缓存 自然语言处理
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
KV缓存是大语言模型(LLM)处理长文本的关键性能瓶颈,现有研究多聚焦于预填充阶段优化,忽视了解码阶段的重要性。本文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存策略,实现高效管理。SCOPE保留预填充阶段的关键信息,并在解码阶段引入滑动窗口等策略,确保重要特征的有效选取。实验表明,SCOPE仅用35%原始内存即可达到接近完整缓存的性能水平,显著提升了长文本生成任务的效率和准确性。
518 3
SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架
|
12月前
|
安全
基于AFDPF主动频率偏移法的孤岛检测Simulink仿真
本课题基于AFDPF(主动频率偏移法)进行孤岛检测的Simulink仿真。在分布式发电系统中,孤岛现象可能对电网安全和人员生命构成威胁。AFDPF通过主动改变并网点的注入功率,引起系统频率的变化,从而检测孤岛现象。系统正常运行时,频率由主电网控制;采用AFDPF方法时,逆变器短暂改变有功功率输出,监测频率变化。若频率迅速恢复,说明系统仍与大电网相连;否则,可能存在孤岛现象。本仿真使用MATLAB2022a版本。
|
12月前
|
JavaScript Docker Python
下个时代的开发工具-Nix:声明式的运行环境构建器、简单场景下的docker替身
Nix 是一个独特的包管理工具和构建系统,采用声明式方法管理软件包和运行环境。它通过精确控制依赖关系和环境配置,确保软件的可重复性、隔离性和可追溯性。Nix 支持多语言开发环境,提供声明式配置、环境隔离、回滚与版本控制等核心功能,适用于复杂开发场景,有效解决依赖冲突和环境不一致问题。
1420 3
|
应用服务中间件
解决方案:IDEA控制台输出Tomcat中文乱码
解决方案:IDEA控制台输出Tomcat中文乱码
500 0
解决方案:IDEA控制台输出Tomcat中文乱码