数据仓库(12)数据治理之数仓数据管理实践心得

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些](https://zhuanlan.zhihu.com/p/467433967)。

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。

当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什么是大数据治理,数据治理的范围是哪些

那接下来就继续说说数据治理的一些思路心得。

接到数据治理的任务?要怎么做?

  • 梳理目前数据集群,以及业务的总体情况

这个,其实没有什么好说,做事情之前,肯定是要先了解,我们要做的东西是怎么样的,评估可能会遇到的问题,这样才能进一步做出来好的数据质量方案。

  • 对数据治理进行分类

了解了我们面对的数据集群之后,就要了解对我们需要治理的方向,进行分类了,这个对我们后续的方案设计和组件的选取、改造会有很大的影响,不一样的分类,我们要解决问题的范围,是不一样的。

那要怎么分类?首先是大的方向。

  1. 主数据管理
  2. 元数据管理
  3. 数据标准
  4. 数据质量管理
  5. 数据安全管理
  6. 数据计算管理
  7. 数据存储管理

大的方向确定了,当其实还是太大了,还是需要进一步的进行切割。

像是数据质量管理,可以进一步切分为

1 唯一性校验:不存在无意义的重复数据
2 完整性校验:数据完整且连续
3 一致性校验:数据在多数据源中意义一致
4 有效性校验:这里主要指数据在分析的时间点是有效,而非过期或失效数据
5 准确性校验:数据合理、准确,并符合数据类型的标准

元数据管理,要划分为技术元数据和业务元数据等,具体的划分粒度,应该需要到具体的,可实现的,不容易混淆,以及偏于以后数据的管理和使用。毕竟这个东西后续要给开发,给数据bi等人使用的。当然,我们可能不能已下载就划分好一个最好的分类,我们应该循环迭代,做出一个更加符合实际出来。

数据管理这个,如果说技术能力,开发人力有限,那其实往往更加简单的方式更好,也便于推广,应该说一个可用的方案好过于一个全面,但用起来不方便的方案。

  • 针对某个类别的数据,进行具体设计,开发,并进一步成规范

上面,我们已经大概梳理好了我们数据治理的范围和分类,进一步的,我们就需要落地了。这个时候,我们就要进一步的针对,我们的划分的问题,提出,我们的方案,并实现他。

如果,上面说的数据质量管理中的准确性校验,这个时候,我们就面临了一个问题,怎么样的数据,符合数据合理、准确,并符合数据类型的标准这样的数据规范?我们会怎么去验证这个东西呢?正常情况下,开发人员是怎么去验证这个东西的?

所以,这个时候,我们就需要抽象出这些具体的操作,拼通过合适的方案实现他。

如果,准确性校验,开发人员一般是通过写sql,通过一定的数据规则判断的,比如数据的波动,数据值的范围等。那么我们做这个的时候,是不是就可以做这样的一个系统,可以配置sql,或者一些比较通过的逻辑,定时比对数据,得到我们的一个结果,实现这样的一个功能?当然这个肯定不是最好的方案,但是一个可用的方案好过于一个全面,但用起来不方便的方案。然后不停的迭代优化,完善。

当然,这个时候也要放过来思考我们上面的划分是不是,合理,比如数据质量管理,是不是可以使用同一个思路去做?争取事半功倍。

  • 执行规范

做好上面的事情,接下来,就是考验执行了的时候了,任何方案在,最终如果不能很好的执行,那就是事倍功半。

啰里啰唆,写了这一点点心得,逻辑可能不是很通畅,希望可以给到各个在数据治理挣扎的同学,一点思路,这个也是我的个人笔记,后续有新的想法,再更新。

需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐

参考资料:

  1. 数据仓库(01)什么是数据仓库,数仓有什么特点
  2. 数据仓库(02)数仓、大数据与传统数据库的区别
  3. 数据仓库(03)数仓建模之星型模型与维度建模
  4. 数据仓库(04)基于维度建模的数仓KimBall架构
  5. 数据仓库(05)数仓Kimball与Inmon架构的对比
  6. 数据仓库(06)数仓分层设计
  7. 数据仓库(07)数仓规范设计
  8. 数据仓库(08)数仓事实表和维度表技术
  9. 数据仓库(09)数仓缓慢变化维度数据的处理
  10. 数据仓库(10)数仓拉链表开发实例
  11. 数据仓库(11)什么是大数据治理,数据治理的范围是哪些
  12. 数据仓库(12)数据治理之数仓数据管理实践心得
  13. 数据仓库(13)大数据数仓经典最值得阅读书籍推荐
相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
25天前
|
数据采集 存储 安全
数据治理≠数据管理!90%的企业都搞错了重点!
在数字化转型中,数据不一致、质量差、安全隐患等问题困扰企业。许多组织跳过基础的数据管理,直接进行数据治理,导致方案难以落地。数据管理涵盖数据生命周期中的采集、存储、处理等关键环节,决定了数据是否可用、可靠。本文详解数据管理的四大核心模块——数据质量、元数据、主数据与数据安全,并提供构建数据管理体系的四个阶段:评估现状、确定优先级、建立基础能力与持续改进,助力企业夯实数据基础,推动治理落地。
|
3月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
25天前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
5月前
|
存储 数据管理 数据格式
数据治理 vs. 数据管理:别再傻傻分不清!
数据治理 vs. 数据管理:别再傻傻分不清!
261 10
|
1月前
|
存储 机器学习/深度学习 数据采集
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
数据湖与数据仓库各有优劣,湖仓一体架构成为趋势。本文解析二者核心差异、适用场景及治理方案,助你选型落地。
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
|
1月前
|
数据采集 存储 SQL
数据管理四部曲:元数据管理、数据整合、数据治理、数据质量管控
老张带你搞定企业数据管理难题!数据找不到、看不懂、用不好?关键在于打好元数据管理、数据整合、数据治理和数据质量管控四大基础。四部曲环环相扣,助你打通数据孤岛,提升数据价值,实现精准决策与业务增长。
数据管理四部曲:元数据管理、数据整合、数据治理、数据质量管控
|
3月前
|
数据采集 人工智能 监控
企业数据来源杂、质量差,如何通过主数据管理解决?如何确保数据可信、一致和可用?
本文三桥君系统介绍了主数据管理(MDM)在企业数字化转型中的关键作用。产品专家三桥君从数据清洗、治理、处理到流转四个维度,详细阐述了如何通过标准化流程将数据转化为企业核心资产。重点包括:数据清洗的方法与工具应用;数据治理的组织保障与制度设计;数据处理的三大核心动作;以及数据流转的三种模式与安全控制。专家三桥君强调主数据管理能够推动企业从"经验决策"转向"数据驱动",并提出构建统一数据服务网关、"数据血缘图谱"等实战建议,为企业数字化转型提供系统化解决方案。
135 0
|
7月前
|
关系型数据库 数据库 对象存储
Dify实践|Dify on DMS+对象存储OSS,实现多副本部署方案
本文介绍了在DMS上部署Dify的详细步骤,用户可选择一键购买资源或基于现有资源部署Dify,需配置RDS PostgreSQL、Redis、AnalyticDB for PostgreSQL等实例,并设置存储路径和资源规格。文中还提供了具体配置参数说明及操作截图,帮助用户顺利完成部署。
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样