数据仓库(12)数据治理之数仓数据管理实践心得

简介: 这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。

当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什么是大数据治理,数据治理的范围是哪些

那接下来就继续说说数据治理的一些思路心得。

接到数据治理的任务?要怎么做?

  • 梳理目前数据集群,以及业务的总体情况

这个,其实没有什么好说,做事情之前,肯定是要先了解,我们要做的东西是怎么样的,评估可能会遇到的问题,这样才能进一步做出来好的数据质量方案。

  • 对数据治理进行分类

了解了我们面对的数据集群之后,就要了解对我们需要治理的方向,进行分类了,这个对我们后续的方案设计和组件的选取、改造会有很大的影响,不一样的分类,我们要解决问题的范围,是不一样的。

那要怎么分类?首先是大的方向。

  1. 主数据管理
  2. 元数据管理
  3. 数据标准
  4. 数据质量管理
  5. 数据安全管理
  6. 数据计算管理
  7. 数据存储管理

大的方向确定了,当其实还是太大了,还是需要进一步的进行切割。

像是数据质量管理,可以进一步切分为

1 唯一性校验:不存在无意义的重复数据
2 完整性校验:数据完整且连续
3 一致性校验:数据在多数据源中意义一致
4 有效性校验:这里主要指数据在分析的时间点是有效,而非过期或失效数据
5 准确性校验:数据合理、准确,并符合数据类型的标准

元数据管理,要划分为技术元数据和业务元数据等,具体的划分粒度,应该需要到具体的,可实现的,不容易混淆,以及偏于以后数据的管理和使用。毕竟这个东西后续要给开发,给数据bi等人使用的。当然,我们可能不能已下载就划分好一个最好的分类,我们应该循环迭代,做出一个更加符合实际出来。

数据管理这个,如果说技术能力,开发人力有限,那其实往往更加简单的方式更好,也便于推广,应该说一个可用的方案好过于一个全面,但用起来不方便的方案。

  • 针对某个类别的数据,进行具体设计,开发,并进一步成规范

上面,我们已经大概梳理好了我们数据治理的范围和分类,进一步的,我们就需要落地了。这个时候,我们就要进一步的针对,我们的划分的问题,提出,我们的方案,并实现他。

如果,上面说的数据质量管理中的准确性校验,这个时候,我们就面临了一个问题,怎么样的数据,符合数据合理、准确,并符合数据类型的标准这样的数据规范?我们会怎么去验证这个东西呢?正常情况下,开发人员是怎么去验证这个东西的?

所以,这个时候,我们就需要抽象出这些具体的操作,拼通过合适的方案实现他。

如果,准确性校验,开发人员一般是通过写sql,通过一定的数据规则判断的,比如数据的波动,数据值的范围等。那么我们做这个的时候,是不是就可以做这样的一个系统,可以配置sql,或者一些比较通过的逻辑,定时比对数据,得到我们的一个结果,实现这样的一个功能?当然这个肯定不是最好的方案,但是一个可用的方案好过于一个全面,但用起来不方便的方案。然后不停的迭代优化,完善。

当然,这个时候也要放过来思考我们上面的划分是不是,合理,比如数据质量管理,是不是可以使用同一个思路去做?争取事半功倍。

  • 执行规范

做好上面的事情,接下来,就是考验执行了的时候了,任何方案在,最终如果不能很好的执行,那就是事倍功半。

啰里啰唆,写了这一点点心得,逻辑可能不是很通畅,希望可以给到各个在数据治理挣扎的同学,一点思路,这个也是我的个人笔记,后续有新的想法,再更新。

需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐

参考资料:

  1. 数据仓库(01)什么是数据仓库,数仓有什么特点
  2. 数据仓库(02)数仓、大数据与传统数据库的区别
  3. 数据仓库(03)数仓建模之星型模型与维度建模
  4. 数据仓库(04)基于维度建模的数仓KimBall架构
  5. 数据仓库(05)数仓Kimball与Inmon架构的对比
  6. 数据仓库(06)数仓分层设计
  7. 数据仓库(07)数仓规范设计
  8. 数据仓库(08)数仓事实表和维度表技术
  9. 数据仓库(09)数仓缓慢变化维度数据的处理
  10. 数据仓库(10)数仓拉链表开发实例
  11. 数据仓库(11)什么是大数据治理,数据治理的范围是哪些
  12. 数据仓库(12)数据治理之数仓数据管理实践心得
  13. 数据仓库(13)大数据数仓经典最值得阅读书籍推荐
相关实践学习
数据库实验室挑战任务-初级任务
本场景介绍如何开通属于你的免费云数据库,在RDS-MySQL中完成对学生成绩的详情查询,执行指定类型SQL。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
Web App开发 缓存 数据库
DMS产品常见问题之DMS数据规定失败如何解决
DMS(数据管理服务,Data Management Service)是阿里云提供的一种数据库管理和维护工具,它支持数据的查询、编辑、分析及安全管控;本汇总集中了DMS产品在实际使用中用户常遇到的问题及其相应的解答,目的是为使用者提供快速参考,帮助他们有效地解决在数据管理过程中所面临的挑战。
|
1天前
|
运维 数据管理 数据库
数据管理DMS产品使用合集之在阿里云DMS中,想对数据精度进行校验,有什么方法
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
1天前
|
NoSQL 数据管理 MongoDB
数据管理DMS产品使用合集之如何通过阿里云的数据管理服务(DMS)导出MongoDB数据
阿里云数据管理DMS提供了全面的数据管理、数据库运维、数据安全、数据迁移与同步等功能,助力企业高效、安全地进行数据库管理和运维工作。以下是DMS产品使用合集的详细介绍。
|
1天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
1天前
|
运维 Cloud Native 关系型数据库
云原生数据仓库产品使用合集之原生数据仓库AnalyticDB PostgreSQL版如果是列存表的话, adb支持通过根据某个字段做upsert吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
11天前
|
存储 Oracle 数据管理
Oracle 12c的自动数据优化(ADO)与热图:数据管理的“瘦身”与“透视”艺术
【4月更文挑战第19天】Oracle 12c的ADO和热图技术革新数据管理。ADO智能清理无用数据,优化存储,提升查询速度,实现数据"瘦身";热图则以直观的视觉表示展示数据分布和状态,助力识别性能瓶颈,犹如数据的"透视"工具。这两项技术结合,强化数据管理,为企业业务发展保驾护航。
|
18天前
|
人工智能 安全 数据处理
首次全国数据工作会议召开,数据管理体制建设迈上新台阶
首次全国数据工作会议召开,数据管理体制建设迈上新台阶
26 1
|
1月前
|
关系型数据库 MySQL OLAP
PolarDB +AnalyticDB Zero-ETL :免费同步数据到ADB,享受数据流通新体验
Zero-ETL是阿里云瑶池数据库提供的服务,旨在简化传统ETL流程的复杂性和成本,提高数据实时性。降低数据同步成本,允许用户快速在AnalyticDB中对PolarDB数据进行分析,降低了30%的数据接入成本,提升了60%的建仓效率。 Zero-ETL特性包括免费的PolarDB MySQL联邦分析和PolarDB-X元数据自动同步,提供一体化的事务处理和数据分析,并能整合多个数据源。用户只需简单配置即可实现数据同步和实时分析。
|
1月前
|
分布式计算 大数据 Hadoop
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。
253 2
数据仓库(13)大数据数仓经典最值得阅读书籍推荐
|
2月前
|
SQL 存储 数据管理
阿里云视觉智能开放平台的逻辑数仓基于统一的SQL语法
【2月更文挑战第9天】阿里云视觉智能开放平台的逻辑数仓基于统一的SQL语法
52 2

热门文章

最新文章