数据仓库心得(12)数据治理之数仓数据管理实践

简介: 数据治理之数仓数据管理实践心得

这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。

当然,想要做数据治理,想要学习了解,一下数据治理的范围,理论等,最好可以看看别人怎么做的,了解数据治理可以参考:数据仓库(11)什么是大数据治理,数据治理的范围是哪些。

那接下来就继续说说数据治理的一些思路心得。

接到数据治理的任务?要怎么做?

梳理目前数据集群,以及业务的总体情况
这个,其实没有什么好说,做事情之前,肯定是要先了解,我们要做的东西是怎么样的,评估可能会遇到的问题,这样才能进一步做出来好的数据质量方案。

对数据治理进行分类
了解了我们面对的数据集群之后,就要了解对我们需要治理的方向,进行分类了,这个对我们后续的方案设计和组件的选取、改造会有很大的影响,不一样的分类,我们要解决问题的范围,是不一样的。

那要怎么分类?首先是大的方向。

主数据管理
元数据管理
数据标准
数据质量管理
数据安全管理
数据计算管理
数据存储管理
大的方向确定了,当其实还是太大了,还是需要进一步的进行切割。

像是数据质量管理,可以进一步切分为

1 唯一性校验:不存在无意义的重复数据
2 完整性校验:数据完整且连续
3 一致性校验:数据在多数据源中意义一致
4 有效性校验:这里主要指数据在分析的时间点是有效,而非过期或失效数据
5 准确性校验:数据合理、准确,并符合数据类型的标准

元数据管理,要划分为技术元数据和业务元数据等,具体的划分粒度,应该需要到具体的,可实现的,不容易混淆,以及偏于以后数据的管理和使用。毕竟这个东西后续要给开发,给数据bi等人使用的。当然,我们可能不能已下载就划分好一个最好的分类,我们应该循环迭代,做出一个更加符合实际出来。

数据管理这个,如果说技术能力,开发人力有限,那其实往往更加简单的方式更好,也便于推广,应该说一个可用的方案好过于一个全面,但用起来不方便的方案。

针对某个类别的数据,进行具体设计,开发,并进一步成规范
上面,我们已经大概梳理好了我们数据治理的范围和分类,进一步的,我们就需要落地了。这个时候,我们就要进一步的针对,我们的划分的问题,提出,我们的方案,并实现他。

如果,上面说的数据质量管理中的准确性校验,这个时候,我们就面临了一个问题,怎么样的数据,符合数据合理、准确,并符合数据类型的标准这样的数据规范?我们会怎么去验证这个东西呢?正常情况下,开发人员是怎么去验证这个东西的?

所以,这个时候,我们就需要抽象出这些具体的操作,拼通过合适的方案实现他。

如果,准确性校验,开发人员一般是通过写sql,通过一定的数据规则判断的,比如数据的波动,数据值的范围等。那么我们做这个的时候,是不是就可以做这样的一个系统,可以配置sql,或者一些比较通过的逻辑,定时比对数据,得到我们的一个结果,实现这样的一个功能?当然这个肯定不是最好的方案,但是一个可用的方案好过于一个全面,但用起来不方便的方案。然后不停的迭代优化,完善。

当然,这个时候也要放过来思考我们上面的划分是不是,合理,比如数据质量管理,是不是可以使用同一个思路去做?争取事半功倍。

执行规范
做好上面的事情,接下来,就是考验执行了的时候了,任何方案在,最终如果不能很好的执行,那就是事倍功半。

啰里啰唆,写了这一点点心得,逻辑可能不是很通畅,希望可以给到各个在数据治理挣扎的同学,一点思路,这个也是我的个人笔记,后续有新的想法,再更新。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
10月前
|
数据采集 存储 安全
数据治理≠数据管理!90%的企业都搞错了重点!
在数字化转型中,数据不一致、质量差、安全隐患等问题困扰企业。许多组织跳过基础的数据管理,直接进行数据治理,导致方案难以落地。数据管理涵盖数据生命周期中的采集、存储、处理等关键环节,决定了数据是否可用、可靠。本文详解数据管理的四大核心模块——数据质量、元数据、主数据与数据安全,并提供构建数据管理体系的四个阶段:评估现状、确定优先级、建立基础能力与持续改进,助力企业夯实数据基础,推动治理落地。
|
SQL 分布式计算 DataWorks
破界·融合·进化:解码DataWorks与Hologres的湖仓一体实践
基于阿里云DataWorks与实时数仓Hologres,提供统一的大数据开发治理平台与全链路实时分析能力。DataWorks支持多行业数据集成与管理,Hologres实现海量数据的实时写入与高性能查询分析,二者深度融合,助力企业构建高效、实时的数据驱动决策体系,加速数字化升级。
|
存储 数据管理 数据格式
数据治理 vs. 数据管理:别再傻傻分不清!
数据治理 vs. 数据管理:别再傻傻分不清!
650 10
|
10月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
10月前
|
存储 机器学习/深度学习 数据采集
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
数据湖与数据仓库各有优劣,湖仓一体架构成为趋势。本文解析二者核心差异、适用场景及治理方案,助你选型落地。
数据湖 vs 数据仓库:大厂为何总爱“湖仓并用”?
|
10月前
|
数据采集 存储 SQL
数据管理四部曲:元数据管理、数据整合、数据治理、数据质量管控
老张带你搞定企业数据管理难题!数据找不到、看不懂、用不好?关键在于打好元数据管理、数据整合、数据治理和数据质量管控四大基础。四部曲环环相扣,助你打通数据孤岛,提升数据价值,实现精准决策与业务增长。
数据管理四部曲:元数据管理、数据整合、数据治理、数据质量管控
|
11月前
|
SQL 存储 运维
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
本文介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,菜鸟为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 数据分析的最优选型。
628 2
Apache Doris 在菜鸟的大规模湖仓业务场景落地实践
|
12月前
|
数据采集 人工智能 监控
企业数据来源杂、质量差,如何通过主数据管理解决?如何确保数据可信、一致和可用?
本文三桥君系统介绍了主数据管理(MDM)在企业数字化转型中的关键作用。产品专家三桥君从数据清洗、治理、处理到流转四个维度,详细阐述了如何通过标准化流程将数据转化为企业核心资产。重点包括:数据清洗的方法与工具应用;数据治理的组织保障与制度设计;数据处理的三大核心动作;以及数据流转的三种模式与安全控制。专家三桥君强调主数据管理能够推动企业从"经验决策"转向"数据驱动",并提出构建统一数据服务网关、"数据血缘图谱"等实战建议,为企业数字化转型提供系统化解决方案。
402 0