浅谈数据治理

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 浅谈数据治理

01 引言

在之前的一篇博客《细谈数据仓库》我大致讲解了为何需要数据仓库?数据仓库的概念以及分层等。与数据仓库紧密相关联的概念就是 “数据治理” 了,也就是本文要讲的内容。

在讲解数据治理前,需要了解一下相关的概念,这里先贴出来 (可以先跳过):

  • 元数据(Metadata ):描述数据的数据或关于数据的结构化数据,比如“年龄:18岁”,年龄是一种属性,用来描述具体的“值”的,而这种属性的信息就叫元数据;
  • 主数据(Master Data):企业内需要在多个部门、多个信息系统之间共享的数据,如客户、供应商、组织、人员、项目、物料等;
  • 资源目录:资源目录指在数据库表基础上建立的,用于对内部系统或对外部应用共享的数据资源清单;
  • 数据模型:数据模型是通过对元数据表描述信息、字段描述信息等元数据的定义,来抽象建立元数据实体表逻辑和物理模型;
  • 血缘分析:是保证数据融合(聚合)的一个手段,通过血缘分析实现数据融合处理的可追溯;

02 为何需要数据治理?

2.1 数据治理定义

网上对数据治理的定义褒贬不一,而我理解的数据治理就是:“处理高质量的数据,以便于高层做正确的决策”!

2.2 何为数据治理?

首先我们需要明白为何数据需要治理?下面来举个例子:

假设一家公司下有很多家子公司,每家子公司都有一个财务部门,每个财务部门都有一个财务系统,财务数据都存入他们的数据库。何时有一个问题来了,年底了,总公司的高层需要知道每年的年度报表,需要知道公司的盈利情况,那么如何解决呢?

针对上述问题,我们会很自然的想到一个方案,那就设计一个类似于 “ 数据中台 ” 的系统,也就是把每个子公司的财务系统数据库里的数据,汇聚(即ETL)到我们数据中台通过数据建模定义“数据仓库表”里面去,这样我们就能看到每个子公司财务系统里面的数据了,减少了多个子公司数据库的连库表查询,可以看到,这是十分方便和高效的。但是,这会有一个问题,因为高层不熟悉我们的系统,他们往往希望看到他们期望的东西,例如盈利的趋势,走向等,那该如何解决呢?其实这也就是我们讲数据治理的核心,即“质量”。

考过 PMP的都知道有个铁三角,即“成本、效率、质量”,这三者同时保障是很困难的,但是有了 “数据治理” 我们可以提高“效率”(如前面讲的“数据中台设计数据仓库表”),再提高“质量”,进行了数据治理之后方便高层做出决策,进而减少“成本”。

如何保证质量?这个时候就需要我们设计一个高质量的模型了,这个模型需要我们结合财务高手一起来设计,设计的前提是我们财务的基础数据(即每个子公司的财务系统数据),协同财务高手的主要目的是他们的经验(因为技术不懂财务知识)。假如他们有一套财务公式可以预测盈利的走势,那么,我们可以使用到我们的 “数据中台” 系统通过模型设计把这套财务公式应用进来,进而保证了“质量”。

再回顾之前开头说的一句话:“数据治理就是处理高质量的数据,以便于高层做正确的决策!”,通过上面的例子,是不是对“数据治理”这个概念有所理解了呢?如果还不是很清晰,可以继续往下阅读。

03 数据治理设计

先贴出一张设计图:

这是我自己画的一张关于“数据治理的设计图”,可以看到我把它分为了三层,分别为:“数据规则层”、“数据处理中间层”、“数据共享层”。

3.1 数据规则

3.1.1 标准

在数据治理之前,我们必须定义“标准”,这些标准都是大家公认的,比如:“国家标准”、“行业标准”、“地区标准”等。这些标准我们可以在网站里看到:http://std.samr.gov.cn/gb/

所以我们定义标准前,必须是按照全国的标准才是最规范的,例如:1表示男,2表示女等。

3.1.2 模型

这里的模型主要指的是 “元模型” 的设计,比如我们期望的数据在我们的数据仓库里面存储的规则是怎样的?例如:有哪些字段?每个字段能存什么类型?每个字段能存的值有哪些等等?

3.2 数据处理中间层

在前面,我们已经有了一个“标准”以及“模型”,那么我们可以设计数据属性了,也就是数据处理中间层要做的事情。

3.2.1 元数据

元数据(Metadata:描述数据的数据或关于数据的结构化数据,比如“年龄:18岁”,年龄是一种属性,用来描述具体的“值”的,而这种属性的信息就叫元数据;

可以说 “元数据” 是前面说的 “模型” 来定义的,这里定义的元数据,就是我们期望的 “未来存入数据定义” ,例如:这里定义了MySQL的某张表的数据(列字段,列信息、列长度等)。

还可以理解 “元数据”对应的 “实际数据” 就是ods层的数据。

数据从源表拉过来,进行etl,比如mysql映射到hive,那么到了hive里面就是ods层,但是,这一层面的数据却不等同于原始数据,为我们定义表的数据。

3.2.2 主数据

主数据(Master Data:企业内需要在多个部门、多个信息系统之间共享的数据,如客户、供应商、组织、人员、项目、物料等;

我理解的 “主数据”,就是“元数据”的一种抽取。我们都知道“元数据”都是为了方便高效的去整理和处理数据,只能说从程序中优化了来自各系统的数据,并把它们规范存储起来,但是这些数据不能保证 “质量” 的,如果保证到了“质量”,这个数据就是“主数据”了。

主数据就是有价值的的数据,例如:这些数据可以跨部门共享的,如OA打卡数据,每个部门都需要用到。

3.3 数据共享

我把设计图的最后一层定义为 “数据共享层”,根据意思,就是把上一层的数据共享出去,可以通过“开发API”等技术共享出去,当然这些数据共享是需要通过逐层审批的,不能随意的共享出去,因为这些数据已经是 “有价值” 的了,具体怎么申请,是否需要充值,这个企业的业务需求了。

04 文末

其实最后还有一层是 “安全”,做任何的系统都是需要保障安全,具体的安全规则如何定义?这里就不再多说了。

本文通过个人的理解,使用浅显的话来描述了“数据治理”,难免里面有不正确的看法,有疑问的童鞋欢迎留下评论。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
2月前
|
监控 关系型数据库 MySQL
数据治理平台Datavines
【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。
156 10
|
5月前
|
安全 项目管理 数据安全/隐私保护
|
存储 数据采集 安全
【数据治理】什么是数据治理模型?
【数据治理】什么是数据治理模型?
|
数据采集 存储 机器学习/深度学习
数据治理的三度修炼
所有企业都需要计划如何使用数据,以便在整个业务中一致地处理和使用数据,以支持业务结果。
数据治理的三度修炼
|
SQL DataWorks 数据可视化
全链路数据治理-4
全链路数据治理-4
204 0
|
SQL 分布式计算 运维
全链路数据治理-2
全链路数据治理-2
253 0
全链路数据治理-2
|
数据采集 SQL 机器学习/深度学习
Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展
数据质量是数据建设和管理中非常重要的一环。所有的数据应用,不论是用于支持业务开展的数据库,还是用于支持商业决策,或者用于机器学习和人工智能等高级应用,实现数据价值的前提是数据本身是高质量的,是可靠和可信的。
Dataphin数据治理系列:基于数据质量管理,支撑业务快速发展
|
存储 数据采集 数据管理
说说数据治理中常见的20个问题
数据治理是一项战略计划,用于优化企业处理数据的方式。它旨在组织和改进公司用于定义、收集、存储、保护、管理和货币化业务数据的政策和程序。
|
数据采集 数据管理 数据挖掘
数据治理的一疑乙易
在数据爆炸式增长的时代,数据又成为重要的生产要素之一,数据治理就成为很多企业关注的重点。
|
数据采集 存储 安全
漫谈数据治理
数据治理是当今快速发展和高度竞争的企业环境中的一项要求。现在,组织有机会捕获大量不同的内部和外部数据,他们需要一个规程来最大化其价值、管理风险和降低成本。
漫谈数据治理