最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。
图:来自亿信
文章分为以下四个部分:
1. 背景
2. 数据地图需要解决的问题
3. 数据地图的能力
4. 数据地图长什么样
01背景
讲好什么是数据地图,还有从数据治理说起,很多公司的数据治理搞的就仅仅是看了几篇网上了理论文章,就开干,最终不了了之。为什么?其中一个很重要的原因是没有做好数据地图。开始打仗了,才发现自己连一个作战地图都没有,怎么调兵遣将?数据治理同事做了大量的数据模型和指标,但是数据使用人员却不知道如何快速找到自己想要的数据模型和指标。
02数据地图需要解决的问题
上面背景已经说了,数据地图至少应该解决两个问题:如何寻找数据和如何用好数据。
如何寻找数据
企业级的数据仓库会有上千个数据模型,对于分析师来说,怎么找到自己要用的模型呢?比如分析师在找销量数据时,可能会有很多销量的指标,所以数据地图需要对销量数据进行区分,以便能够指导是哪类商品的销量,同一类的销量可能还会来自不同系统,需要对不同系统的销量进行区分等等。
如何利用好数据
很多时候分析师或业务人员拿到数据后还会找数据工程师确认数据的来源,口径是否是自己想要的数据。有很多数据工程师都抱怨自己会花费很多时间“解释”指标。
只有让数据使用人员能够快速的找到数据并利用好数据,数据才能真正的发挥价值,而数据地图就是来解决这个问题的。
03 数据地图的能力
根据上面说的数据地图需要解决的问题,那么数据地图应该具备数据搜索、数据推荐、数据解析、数据画像四大关键能力。
数据搜索
通过对数据的分类、打标签等,让用户快速的搜索出自己想要的数据,类似百度搜索,输入关键字,即可查询出相关的内容。比如搜索“手机销量”,能够精准的匹配出对应名称的指标和数据模型,还会带出符合关键字搜索规则的相关其他指标和模型。
数据推荐
如果你玩短视频平台,就会发现,每次APP都会给你推荐你感兴趣的视频,比如你喜欢看美女,点个赞就好,会一直给你推高质量的美女视频,我们也称之为“大数据杀熟”。
同样数据也一样,很多人都使用的数据,那必然是业务关键的数据,数据推荐可以让用户更容易找到自己相关业务的高质量、可食用的数据模型和指标,大家都不用的模型和数据,要么是错误的指标,要么是过期的指标,后面也方便对这些模型指标进行优化和下线。
推荐是系统自动实现的,同时我们也要提供一个手动实现的推荐,比如收藏功能,收藏了下次能够更高效的访问使用。
数据解析
数据解析可以帮助业务使用人员“读懂数据”,比如可以看到数据的指标口径,数据模型的描述、字段数据来源,数据模型的血缘关系,保存周期等等。
数据画像
用户画像这次我们了解的多一些,主要描述用户的特征,喜好等,数据一样也有画像,数据所属的业务,数据本书的标签,数据画像可以提高搜索的准确性。
04数据地图长什么样
根据上面的数据地图能力总结,画了部分数据地图的功能图,大家请参考。
数据搜索
数据推荐
数据解析
数据画像
05 总结
当然数据地图在每个公司和业务场景下理解可能还会有偏差,比如还有任务血缘、数据血缘等我没有提到。但是总的来说,数据地图的目的只有一个,就是解决“取数难”和“用数难”两大问题。
你的公司有建设数据地图吗,是什么样的,欢迎大家留言讨论~