数据仓库心得(12)数据治理之数仓数据管理实践-阿里云开发者社区

数据仓库心得(12)数据治理之数仓数据管理实践

2022-05-13 406

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据治理之数仓数据管理实践心得

这边文章聊聊自己对数据治理开发实践的一些思路，就是聊聊怎么开始去做数据治理这件事情。说起数据治理，有时候虽然看了很多文章，看了很多的介绍，了解数据治理的理论，但是实际上需要我们去搞的时候，就会踩很多的坑。这里记一下自己做数据治理的一些思路，做做笔记，也分享给需要的同学。

当然，想要做数据治理，想要学习了解，一下数据治理的范围，理论等，最好可以看看别人怎么做的，了解数据治理可以参考：数据仓库(11)什么是大数据治理，数据治理的范围是哪些。

那接下来就继续说说数据治理的一些思路心得。

接到数据治理的任务？要怎么做？

梳理目前数据集群，以及业务的总体情况
这个，其实没有什么好说，做事情之前，肯定是要先了解，我们要做的东西是怎么样的，评估可能会遇到的问题，这样才能进一步做出来好的数据质量方案。

对数据治理进行分类
了解了我们面对的数据集群之后，就要了解对我们需要治理的方向，进行分类了，这个对我们后续的方案设计和组件的选取、改造会有很大的影响，不一样的分类，我们要解决问题的范围，是不一样的。

那要怎么分类？首先是大的方向。

主数据管理
元数据管理
数据标准
数据质量管理
数据安全管理
数据计算管理
数据存储管理
大的方向确定了，当其实还是太大了，还是需要进一步的进行切割。

像是数据质量管理，可以进一步切分为

1 唯一性校验：不存在无意义的重复数据
2 完整性校验：数据完整且连续
3 一致性校验：数据在多数据源中意义一致
4 有效性校验：这里主要指数据在分析的时间点是有效，而非过期或失效数据
5 准确性校验：数据合理、准确，并符合数据类型的标准

元数据管理，要划分为技术元数据和业务元数据等，具体的划分粒度，应该需要到具体的，可实现的，不容易混淆，以及偏于以后数据的管理和使用。毕竟这个东西后续要给开发，给数据bi等人使用的。当然，我们可能不能已下载就划分好一个最好的分类，我们应该循环迭代，做出一个更加符合实际出来。

数据管理这个，如果说技术能力，开发人力有限，那其实往往更加简单的方式更好，也便于推广，应该说一个可用的方案好过于一个全面，但用起来不方便的方案。

针对某个类别的数据，进行具体设计，开发，并进一步成规范
上面，我们已经大概梳理好了我们数据治理的范围和分类，进一步的，我们就需要落地了。这个时候，我们就要进一步的针对，我们的划分的问题，提出，我们的方案，并实现他。

如果，上面说的数据质量管理中的准确性校验，这个时候，我们就面临了一个问题，怎么样的数据，符合数据合理、准确，并符合数据类型的标准这样的数据规范？我们会怎么去验证这个东西呢？正常情况下，开发人员是怎么去验证这个东西的？

所以，这个时候，我们就需要抽象出这些具体的操作，拼通过合适的方案实现他。

如果，准确性校验，开发人员一般是通过写sql，通过一定的数据规则判断的，比如数据的波动，数据值的范围等。那么我们做这个的时候，是不是就可以做这样的一个系统，可以配置sql，或者一些比较通过的逻辑，定时比对数据，得到我们的一个结果，实现这样的一个功能？当然这个肯定不是最好的方案，但是一个可用的方案好过于一个全面，但用起来不方便的方案。然后不停的迭代优化，完善。

当然，这个时候也要放过来思考我们上面的划分是不是，合理，比如数据质量管理，是不是可以使用同一个思路去做？争取事半功倍。

执行规范
做好上面的事情，接下来，就是考验执行了的时候了，任何方案在，最终如果不能很好的执行，那就是事倍功半。

啰里啰唆，写了这一点点心得，逻辑可能不是很通畅，希望可以给到各个在数据治理挣扎的同学，一点思路，这个也是我的个人笔记，后续有新的想法，再更新。

数据仓库心得(12)数据治理之数仓数据管理实践

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据仓库心得(12)数据治理之数仓数据管理实践

热门文章

最新文章

相关课程

相关电子书