数据中台专栏(三):数据质量分析及提升

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

d8572fafb20be4d4fd700fc538b0fda2c36401c7


本文作者:笑天


袋鼠云数据解决方案专家。拥有10余年IT行业开发和管理等企业服务经验,精通大型项目的开发和管理,曾就职于英特尔、索尼等世界500强企业,参与过英特尔,索尼,三星,华为等公司的大型项目的开发和咨询工作。近几年主攻大数据方向,包括数据中台建设、大数据治理、工业领域的数据应用等项目开发和实施。


正文:正文


大量的信息成倍增加,但有用的信息却非常有限。

信号是真相,噪声却使我们离真相越来越远。


——《信号与噪声:大数据时代预测的科学与艺术》

[美]纳特·西尔弗


一般情况下,企业都有多套的业务系统,一些大型企业甚至会有上百套的业务系统。这些业务在不同时期由不同的团队开发完成。因此,这些业务系统都参考着不同的标准生产各自数据。由于滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位,大量应用系统产生的大量数据是脏数据。这些脏数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。这就是数据质量问题的由来。


一般来说数据质量问题有四个因素造成:

8be46b5fef0d54b6d99479e8e55a04dd0d1133b2


从上述的四因素来说,管理因素和流程因素属于组织管理范畴,信息因素和技术因素属于技术范畴。所以,要改进数据质量问题,要从组织管理和技术两方面入手,才能从根本上,最佳地解决数据质量问题。


从方法论的角度,从组织管理上去改进质量,我们能做的是:

  • 确立组织数据质量改进目标

  • 评估组织流程

  • 制定组织流程改善计划

  • 实施改进

  • 评估改善效果


从技术上去改进数据质量,我们能做的是:

  • 数据分析

  • 数据评估

  • 数据清洗

  • 数据监控

  • 错误预警

 

当我们谈到数据质量改进的时候,我们必须要有一个数据质量评价标准,有了评价标准,我们才能知道如何评价数据的质量,才能把数据质量量化,并知道改进的方向和改进的效果。


目前业内认可的数据质量的六大标准是:


b0a26283e9168d7e853f37a66a1d47fc380adfde


用户可以把每个标准作为六边形的顶点,把你的数据该标准下的质量作为0-100分的点,在图的中心是0,在六边形的顶点是100分,把数据质量点连起来,围城的面积S就是用户数据质量的情况。


3f11ca14d57db7406594e5ce41700f4c395b6e15

 

通常在业务系统存在两大类型数据:主数据和行为数据。主数据是描述事物主体的数据比如人,商品等,行为数据围绕主数据描述的事物发生的行为数据比如交易订单数据,日志数据等。所以,数据治理的改进的核心在于主数据质量改进,只有改进了主数据质量,才能有可能把整体业务数据质量提升上去。


主数据质量治理的目标是把各个业务系统低质量的基础数据,经过质量治理,形成统一规范的主数据,然后反馈给业务系统和其他数据应用系统使用。


493d81778346dfbbe2b25742158f9a43e18a41f3

  • 让数据规范起来(得到所有相关人员的认可——元数据)

  • 得到一份标准的数据(主数据)

  • 建立一套体系来维护数据(主数据管理体系——数据治理)


当然,解决这个问题不仅仅只有主数据一个方法,也可以在建设企业信息系统的时候就从全局考虑,借助业务中台建设全局共享的业务服务中心,在业务服务中心的设计中确保基础数据的统一。但当前的现实情况是,大多数企业经过多年的信息化建设,已经积累了大量的烟囱式信息系统,按照业务中台的思路,彻底推倒重建的成本巨大。所以主数据管理也是解决企业当前基础数据不统一的可行方案。


对主数据的质量进行改进,需要从以下几个方面入手:

8efcc6711c139d2bc5b8e781dccf8487c0ae4f33

数据质量改进流程图


1. 了解数据现状


当前有多少数据?数据模型是什么样子?涉及到哪些业务部门和角色?有什么样的维护流程和体系?数据在哪个或者哪些系统中录入?数据如何流转?数据质量如何?共享质量如何?

...

可通过以下两种方式对当前数据现状进行调研了解:

管理流程调研:管理流程调研按照人员,组织,客商,物料,产品,资产,项目以及合同等分成多个子项目。根据企业需要,选择一些做调研。

基础数据调研:主要是调研的是当前的数据在哪里?哪个部门管?怎么管?数据量有多大?数据格式是什么?数据质量如何?

 

2. 设计数据模型


数据定义是什么?数据到底有几个模型?每个模型中有几个字段?每个字段的含义是什么?这里主要讨论基础的数据建模,即确定主数据的属性数量,名称,属性数据类型及长度等信息。

主数据定义:定义需要明确和清晰。定义关系到数据范围和数据量,关系到与其他主数据的关系。比如人员主数据是指所有与**公司签署了正式劳动合同的人员。人员主数据是从企业管理视角出发的人员实体的数字化描述。

主数据中表的颗粒度:是用一张表还是多张表描述实体,这决定主数据中表与表之间存在1:1,1:N,N:M的各种关系。

主数据中字段属性的颗粒度:根据实际的业务需求,定义字段属性的颗粒度,颗粒度细,则数据量大。反之,则少。

遵循的原则:权威原则、全局性原则、共享性原则、扩展性原则。

c50ea8048c677687023bd73ae72541a6f615ad81


3. 制作主数据管理方案

哪个部门,哪个岗位,在什么时候,依据什么进行主数据维护?

  • 建立数据管理的虚拟组织,找到对数据负责的人。每个主数据都要有一个或者多个业务部门对数据负责,不是信息中心。信息中心仅对数据本身负责。

  • 定义数据管理组织的管理职责。针对每个数据的每个字段,都应当回答,谁,在什么场景,依据什么,是否多人和有流程对内容进行管理和维护。


4. 数据清洗方案

当前存在的数据如何变成标准主数据的过程。

  • 责任部门负责数据清洗和对数据质量负责,其他部门进行协助

  • 根据数据质量情况决定组织模式,必要时需要“运动会”模式

  • 提前就数据要求,填报规范做充分培训

  • 采用大数据平台做清洗的技术手段,可以有无限扩张的计算和存储能力,很好的解决清洗数据中的计算资源消耗问题


d22edfd787d77d80c708a0c907a48a21ecd97116


5. 主数据管理技术方案

数据流向方案

数据的入口在哪里,主数据系统中的数据分发给哪些系统

系统支持方案

数据在哪个系统中录入

系统集成方案

主数据服务规范,第三个系统改造内容


随着互联网时代的来临,企业面对的数据已经远远不是简单的业务数据,而是来自网络和各种设备的大量结构化和非结构化数据即大数据(Big Data)。通常来说大数据质量往往比业务系统产生的主数据的质量还要差,当然也需要治理。


大数据的质量改进主要是通过数据中台的数据清洗,ID Mapping等技术来解决。


数据的质量治理有七大原则:

 

a38b557b5c8aca00b6f0b8704816b2da22831505

 

袋鼠云作为一家企业数据整体解决方案提供商,有一套完整的企业数据解决方案,尤其在数据治理方面,不仅提供数据质量治理的咨询服务,也提供相应的数据质量治理的产品,数栈


ecbd5c7b9496bd1c620244605e4e15d7bb1a83fd


关于数栈,我们下期再讲。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
19天前
|
存储 SQL Apache
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
Apache Doris 是一个基于 MPP 架构的高性能实时分析数据库,以其极高的速度和易用性著称。它支持高并发点查询和复杂分析场景,适用于报表分析、即席查询、数据仓库和数据湖查询加速等。最新发布的 2.0.2 版本在性能、稳定性和多租户支持方面有显著提升。社区活跃,已广泛应用于电商、广告、用户行为分析等领域。
Apache Doris 开源最顶级基于MPP架构的高性能实时分析数据库
|
1月前
|
数据采集 存储 机器学习/深度学习
AllData数据中台核心菜单七:数据质量平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
SQL Cloud Native 关系型数据库
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版功能演示(上)——六、查看分析执行计划
《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB PostgreSQL版功能演示(上)——六、查看分析执行计划
|
存储 安全 Cloud Native
云栖重磅发布 - AnalyticDB PostgreSQL 7.0版本,企业级分析能力升级!
云原生数据仓库AnalyticDB PostgreSQL(简称ADB PG) 7.0版本发布公开测试。该版本着重于提升企业级分析能力,安全管理,执行性能等方面,整体性价比显著提升!
云栖重磅发布 - AnalyticDB PostgreSQL 7.0版本,企业级分析能力升级!
|
6月前
|
存储 关系型数据库 OLAP
基于AnalyticDB PostgreSQL数据共享实现企业级跨多业务的敏捷分析
云数据仓库AnalyticDB PostgreSQL 版发布了最新自研的云原生架构实例,实现了跨实例间的数据共享能力。允许进行跨实例间的实时数据共享且无需进行数据迁移,可支持构建安全、高效、灵活的数据分析场景。本文介绍了依托数据共享实现云数仓跨多业务实例的敏捷数据分析方案。
基于AnalyticDB PostgreSQL数据共享实现企业级跨多业务的敏捷分析
|
存储 运维 Cloud Native
【实操系列】基于AnalyticDB PostgreSQL数据共享实现企业级跨多业务的敏捷分析
云数据仓库AnalyticDB PostgreSQL 版发布了最新自研的云原生架构实例,实现了跨实例间的数据共享能力。允许进行跨实例间的实时数据共享且无需进行数据迁移,可支持构建安全、高效、灵活的数据分析场景。本文介绍了依托数据共享实现云数仓跨多业务实例的敏捷数据分析方案;
【实操系列】基于AnalyticDB PostgreSQL数据共享实现企业级跨多业务的敏捷分析
|
SQL 存储 关系型数据库
PolarDB IMCI助力聚水潭数据中台极致体验,实现百亿级订单实时分析
聚水潭成立于2014年,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。
PolarDB IMCI助力聚水潭数据中台极致体验,实现百亿级订单实时分析
|
数据采集 SQL 运维
基于Apache doris怎么构建数据中台(五)-数据质量管理
接入及后续的数据处理中质量怎么控制。
492 0
基于Apache doris怎么构建数据中台(五)-数据质量管理
|
SQL 数据采集 数据可视化
基于AnalyticDB PostgreSQL Serverless版 构建用户行为分析全链路
行业综述AnalyticDB PostgreSQL助力某互联网企业完成数仓建设和行为日志的数据采集,入库,清洗,分析和洞察的全链路。将重点行为事件进行提取并于用户信息,订单信息,运营推广等维度和事实表进行关联分析,甄别关键链路并打造可视化大屏;于此同时,通过小批高频的入库能力,提供了近实时的业务追踪和运营分析手段。本次,引入Serverless版本的弹性能力和单点计算能力增强,对现有架构进行改造升
基于AnalyticDB PostgreSQL Serverless版 构建用户行为分析全链路
|
SQL 数据采集 关系型数据库
基于AnalyticDB PostgreSQL + OSS + SLS构建面向应用内行为数据的分析全链路
AnalyticDB PostgreSQL助力某互联网企业完成数仓建设和面向用户行为的全链路分析。通过Serverless版本的性能助力,轻松实现了10+的性价比提升。
576 0
基于AnalyticDB PostgreSQL + OSS + SLS构建面向应用内行为数据的分析全链路