数仓治理:数据地图长什么样?

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介: 最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。

最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。

图:来自亿信

文章分为以下四个部分:

1. 背景

2. 数据地图需要解决的问题

3. 数据地图的能力

4. 数据地图长什么样

01背景

讲好什么是数据地图,还有从数据治理说起,很多公司的数据治理搞的就仅仅是看了几篇网上了理论文章,就开干,最终不了了之。为什么?其中一个很重要的原因是没有做好数据地图。开始打仗了,才发现自己连一个作战地图都没有,怎么调兵遣将?数据治理同事做了大量的数据模型和指标,但是数据使用人员却不知道如何快速找到自己想要的数据模型和指标。

02数据地图需要解决的问题

上面背景已经说了,数据地图至少应该解决两个问题:如何寻找数据如何用好数据

如何寻找数据

企业级的数据仓库会有上千个数据模型,对于分析师来说,怎么找到自己要用的模型呢?比如分析师在找销量数据时,可能会有很多销量的指标,所以数据地图需要对销量数据进行区分,以便能够指导是哪类商品的销量,同一类的销量可能还会来自不同系统,需要对不同系统的销量进行区分等等。

如何利用好数据

很多时候分析师或业务人员拿到数据后还会找数据工程师确认数据的来源,口径是否是自己想要的数据。有很多数据工程师都抱怨自己会花费很多时间“解释”指标。

只有让数据使用人员能够快速的找到数据并利用好数据,数据才能真正的发挥价值,而数据地图就是来解决这个问题的。

03 数据地图的能力

根据上面说的数据地图需要解决的问题,那么数据地图应该具备数据搜索、数据推荐、数据解析、数据画像四大关键能力。

数据搜索

通过对数据的分类、打标签等,让用户快速的搜索出自己想要的数据,类似百度搜索,输入关键字,即可查询出相关的内容。比如搜索“手机销量”,能够精准的匹配出对应名称的指标和数据模型,还会带出符合关键字搜索规则的相关其他指标和模型。

数据推荐

如果你玩短视频平台,就会发现,每次APP都会给你推荐你感兴趣的视频,比如你喜欢看美女,点个赞就好,会一直给你推高质量的美女视频,我们也称之为“大数据杀熟”。

同样数据也一样,很多人都使用的数据,那必然是业务关键的数据,数据推荐可以让用户更容易找到自己相关业务的高质量、可食用的数据模型和指标,大家都不用的模型和数据,要么是错误的指标,要么是过期的指标,后面也方便对这些模型指标进行优化和下线。

推荐是系统自动实现的,同时我们也要提供一个手动实现的推荐,比如收藏功能,收藏了下次能够更高效的访问使用。

数据解析

数据解析可以帮助业务使用人员“读懂数据”,比如可以看到数据的指标口径,数据模型的描述、字段数据来源,数据模型的血缘关系,保存周期等等。

数据画像

用户画像这次我们了解的多一些,主要描述用户的特征,喜好等,数据一样也有画像,数据所属的业务,数据本书的标签,数据画像可以提高搜索的准确性。

04数据地图长什么样

根据上面的数据地图能力总结,画了部分数据地图的功能图,大家请参考。

数据搜索

数据推荐

数据解析

数据画像

05 总结

当然数据地图在每个公司和业务场景下理解可能还会有偏差,比如还有任务血缘、数据血缘等我没有提到。但是总的来说,数据地图的目的只有一个,就是解决“取数难”和“用数难”两大问题。

你的公司有建设数据地图吗,是什么样的,欢迎大家留言讨论~

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
5月前
|
存储 数据采集 JavaScript
深入理解数仓开发(一)数据技术篇之日志采集
深入理解数仓开发(一)数据技术篇之日志采集
|
5月前
|
消息中间件 关系型数据库 Kafka
深入理解数仓开发(二)数据技术篇之数据同步
深入理解数仓开发(二)数据技术篇之数据同步
|
5月前
|
分布式计算 DataWorks 关系型数据库
实时数仓 Hologres产品使用合集之如何将MySQL数据初始化到分区表中
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
5月前
|
分布式计算 关系型数据库 数据挖掘
实时数仓 Hologres产品使用合集之误删Hologres一张表的数据,可以支持闪回功能吗
实时数仓Hologres的基本概念和特点:1.一站式实时数仓引擎:Hologres集成了数据仓库、在线分析处理(OLAP)和在线服务(Serving)能力于一体,适合实时数据分析和决策支持场景。2.兼容PostgreSQL协议:Hologres支持标准SQL(兼容PostgreSQL协议和语法),使得迁移和集成变得简单。3.海量数据处理能力:能够处理PB级数据的多维分析和即席查询,支持高并发低延迟查询。4.实时性:支持数据的实时写入、实时更新和实时分析,满足对数据新鲜度要求高的业务场景。5.与大数据生态集成:与MaxCompute、Flink、DataWorks等阿里云产品深度融合,提供离在线
|
3月前
|
SQL DataWorks 数据库连接
实时数仓 Hologres操作报错合集之如何将物理表数据写入临时表
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
3月前
|
DataWorks 负载均衡 Serverless
实时数仓 Hologres产品使用合集之如何导入大量数据
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
3月前
|
SQL 消息中间件 OLAP
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
OneSQL OLAP实践问题之实时数仓中数据的分层如何解决
55 1
|
3月前
|
SQL 分布式计算 关系型数据库
实时数仓 Hologres操作报错合集之指定主键更新模式报错主键数据重复,该如何处理
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
3月前
|
SQL 分布式计算 MaxCompute
实时数仓 Hologres产品使用合集之如何在插入数据后获取自增的id值
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
实时数仓 Hologres产品使用合集之如何在插入数据后获取自增的id值
|
3月前
|
存储 搜索推荐 关系型数据库
实时数仓 Hologres产品使用合集之如何在新增列的时候将历史数据也补上默认值
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。

热门文章

最新文章