什么是数据地图、血缘分析和数据资产?

简介: 什么是数据地图、血缘分析和数据资产?

这是我的第85篇原创

取名字是一门学问,理科生取名字的确让人难以捉摸。比如这个数据地图、血缘分析和数据资产。如果不是干数据这行的,根本不会想到这仨词居然有关系!


数据地图

数据地图是数据治理的重要功能之一。咱顾名思义一下,是不是就是数据的地图?是的!就是所有已经被管理好的数据的地图。这个地图主要解决以下几个问题:

1、平台有多少数据资源?

2、每个数据源有多少表、字段等?

3、这些表、字段里面都是啥情况?

4、我怎么能找到这些数据?

5、我怎么理解这些数据?


所以一般来说,数据地图里都应该有以下功能来解答上面的几个问题:

1、数据概览

2、元数据查看

3、数据预览

4、数据目录

5、数据检索

6、数据注释(元数据管理中)

7、血缘关系分析


以上功能名称可能不一样,但是解决的问题都是一样的。其核心就是为了告诉你,平台现在管理着那些数据呢。类似于公司的物资目录、台账。

这是阿里数据地图的概览页面,很模糊,看一个大概意思就行了。


血缘分析

血缘分析,又叫血统分析、血缘关系等,是数据治理的重要功能之一,一般都放在数据地图/数据管理模块下。

同样再顾名思义一下,那就是数据的儿子、爸爸、爷爷这个血缘的分析?对了!就是对数据的上下游进行来龙去脉的分析!血缘分析主要解答以下问题:

1、这个数据的数据源是哪儿?

2、这个数据的上游是哪个表?哪个字段?

3、这个数据的下游到那个表?那个字段?

4、这个数据的上下游任务是什么?有哪些任务依赖?

5、这个数据改动后可能造成的的影响有哪些?


所有血缘分析一般会有以下功能:

1、数据来源跟踪;

2、数据影响分析;

3、任务依赖分析;

4、报表影响分析;


同样,名称可能不一样,但是该解决的问题还是得解决的。其核心就是想知道这个数据/任务/报表的上下游关系,一旦想改这个数据结构/任务/指标/报表,会对上下游有哪些影响。类似于公司的流程图,可以看到这个事情上上下下都是哪个角色在负责,一旦调整,会有哪些角色/人会受到影响。同样,这是阿里的血缘关系的功能页面:




数据资产

这个词应该见的最多了。咱同样也顾名思义一下,就是公司的一种“数据”形态的资产。这个数据资产主要解答以下几个问题:

1、平台有多少可用的有价值的数据?

2、这些可用的有价值的数据都是啥?

3、用什么方式可以使用这些可用的有价值的数据?

4、怎么控制这些可用的有价值的数据的权限?


所以数据资产一般会有以下功能:

1、数据资产目录

2、数据资产查询、预览

3、数据资产权限申请

4、数据资产使用(API、订阅等)


数据资产好像跟数据地图很类似,但是都是看数据哈。但是你细品一下,区分还是很明显的,数据地图目的是了解数据的来龙去脉,数据资产关注的是有价值的数据是怎么用的,一个是面向生产过程,一个是面向结果使用,一个解决上下游依赖和影响,一个解决数据怎么产生价值。上面我把数据地图类比为公司的物资目录/台账,那数据资产就是当前可用物资列表。


当然啊,现在有些数据中台的产品为了支持庞大的数据资产管理,也会弄一个数据资产地图 ,方便资源的查找。

另外,现在越来越多的数据产品,把数据资产概念扩大化,囊括了数据地图,这个需要注意一下。这个还是阿里的产品,数据资产的功能页面:

相关文章
|
atlas Apache
前瞻|Amundsen的数据血缘功能
目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。本位将展示此功能的一些基本设计。
583 0
前瞻|Amundsen的数据血缘功能
|
数据采集 分布式计算 DataWorks
数据分析之「数据探查」—帮您快速掌握数据情报
为了帮助用户一眼看穿当前数据的质量、结构、分布、统计信息,Dataworks数据分析系统提供了数据探查这个情报管家。它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况;同时,也支持切换到详细模式,查看更多更全面的数据信息。
2523 0
|
搜索推荐 大数据 定位技术
数仓治理:数据地图长什么样?
最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。
728 0
|
数据采集 SQL 分布式计算
数据治理中的数据血缘关系是什么?用来解决什么问题
前言: 数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。 数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路,直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段。
数据治理中的数据血缘关系是什么?用来解决什么问题
|
SQL 分布式计算 数据可视化
建设自己的取数平台:聚合分析
除明细数据导出外,取数场景中还会涉及到聚合分析。
512 1
建设自己的取数平台:聚合分析
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产(二)
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产(二)
|
数据采集 JSON 运维
数据加工CheatSheet的使用
数据加工CheatSheet(速查表)提供了一些简单常见的函数场景,本文主要介绍相关背景以及速查表的使用。
251 0
|
存储 区块链
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产(一)
《数据资产》第三章数据资产是新的资产类别3.2定义数据资产
|
大数据
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产(三)
带你读《数据资产》第三章数据资产是新的资产类别3.2定义数据资产
|
大数据 云计算
带你读《数据资产》第三章数据资产是新的资产类别3.5小结
带你读《数据资产》第三章数据资产是新的资产类别3.5小结