数据治理中的数据血缘关系是什么?用来解决什么问题

简介: 前言:数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路,直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段。

前言:

数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。

数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合处理的可追溯。大数据数据血缘是指数据产生的链路,直白点说,就是我们这个数据是怎么来的,经过了哪些过程和阶段。

 

数据血缘关系的应用场景是什么:

在数据的处理过程中,从数据源头到最终的数据生成,每个环节都可能会导致我们出现数据质量的问题。比如我们数据源本身数据质量不高,在后续的处理环节中如果没有进行数据质量的检测和处理,那么这个数据信息最终流转到我们的目标表,它的数据质量也是不高的。也有可能在某个环节的数据处理中,我们对数据进行了一些不恰当的处理,导致后续环节的数据质量变得糟糕。因此,对于数据的血缘关系,我们要确保每个环节都要注意数据质量的检测和处理,那么我们后续数据才会有优良的基因,即有很高的数据质量。

 

举例说明:

现在假设你是一只数据开发工程师,为了满足一次业务需求,,然后为了生成这张表,可能是处于程序逻辑清晰或者性能优化的考虑,你会使用很多份数据表,也会通过 MR、Spark 或者 Hive 来生产很多中间表。

如下图,是你将花费时间来实现的整个数据流。

  • 其中 Table X 是最终给到业务侧的表。
  • 蓝色的 Table A-E,是原始数据。
  • 黄色的 Table F-I 是你计算出来的中间表。这些表都是你自己写程序要处理的表。
  • 然后你为了懒省事,嗯,应该说本着不重复开发的原则,你还要用到同事小伙伴处理的表,Table J 就是别人处理过的结果表。

image.png

过了一段时间后,业务侧的感觉你提供的数据中有个字段总是不太对劲,其实就是怀疑你的数据出问题!需要你来追踪一下这个字段的来源。

首先你从 Table X 中找到了异常的字段,然后定位到了它来源于 Table I,再从 Table I 定位到了它来源于 Table G, 再从 Table G 追溯到了 Table D,最终发现是某几天的来源数据有异常。

或者说,你从 Table X 定位到了异常的字段原来来自于其它小伙伴处理的表 Table J,然后继续向前回溯,找到了这张表在处理过程中的某一个步出现了问题。

 

我们如何将数据血缘关系进行可视化呢:

在NBI大数据可视化平台中我们可以通过桑基图方式来对数据关系链路来分析:

image.png

 

image.png

在NBI大数据可视化平台中只需通过拖拽组件和字段即可快速生成桑基图

(1)从组件库中拖入桑基图组件到编辑器中:

image.png

(2)组件右键,设置数据数据和样式,即可完成数据的呈现:

image.png

相关文章
|
8月前
|
数据采集 存储 NoSQL
终于有人把数据血缘讲明白了
数据在系统中流转最终变成报表上的一个数字,但你知道它从何而来、如何加工、出错找谁吗?数据血缘就像数据的“族谱”,记录其来源、加工过程与最终去向,帮助你清晰掌握数据的来龙去脉,提升数据治理效率,保障数据质量与合规性。
终于有人把数据血缘讲明白了
|
存储 数据采集 数据管理
一体化元数据管理平台——OpenMetadata入门宝典
一体化元数据管理平台——OpenMetadata入门宝典
3950 0
|
5月前
|
SQL 数据可视化 大数据
Dataphin数据血缘:实现全面追溯,保障流转透明
数据血缘揭示数据从源头到应用的全链路流转关系,助力企业厘清数据来源、影响范围与质量问题根源。Dataphin通过自动采集、手动配置和OpenAPI注册三类方式构建全面的数据血缘,支持可视化展示与用于质量问题溯源,实现数据可查、可信、可管,推动高质量数据治理。
577 1
|
5月前
|
SQL JSON 数据库
SQL Server Management Studio (SSMS) 22 正式版发布 - 微软数据库管理工具
SQL Server Management Studio (SSMS) 22 正式版发布 - 微软数据库管理工具
912 0
SQL Server Management Studio (SSMS) 22 正式版发布 - 微软数据库管理工具
|
7月前
|
弹性计算
阿里云域名备案流程(图文教程)2025年最新
2025年最新阿里云ICP备案流程图文教程,共5个步骤,最快2天完成备案。首先提交备案材料,阿里云初审(1个工作日内),通过后提交管局,接着进行工信部短信核验,最后等待管局审核(1-20天)。前4步最快1天完成,整体约2-21天。个人或企业均可操作,材料齐全更高效。需搭配阿里云中国大陆地域服务器备案。
4845 18
|
8月前
|
人工智能 IDE 数据管理
如何在开发工具中使用钉钉MCP
本文讲解了钉钉MCP服务的两种绑定方式。其一为直接通过通义灵码IDE内置服务完成钉钉MCP的对接;其二则针对其他IDE工具,安装通义灵码插件,再执行绑定操作以实现钉钉AI表格(多维表)的数据管理功能。
|
11月前
|
数据采集 监控 数据管理
【能力比对】数据质量管理VS数据质量平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
【能力比对】数据质量管理VS数据质量平台
|
SQL 存储 大数据
Flink 基础详解:大数据处理的强大引擎
Apache Flink 是一个分布式流批一体化的开源平台,专为大规模数据处理设计。它支持实时流处理和批处理,具有高吞吐量、低延迟特性。Flink 提供统一的编程抽象,简化大数据应用开发,并在流处理方面表现卓越,广泛应用于实时监控、金融交易分析等场景。其架构包括 JobManager、TaskManager 和 Client,支持并行度、水位线、时间语义等基础属性。Flink 还提供了丰富的算子、状态管理和容错机制,如检查点和 Savepoint,确保作业的可靠性和一致性。此外,Flink 支持 SQL 查询和 CDC 功能,实现实时数据捕获与同步,广泛应用于数据仓库和实时数据分析领域。
10540 42
|
人工智能 分布式计算 DataWorks
DataWorks
DataWorks是阿里巴巴推出的智能化大数据开发与治理平台,支持数据仓库、数据湖等架构,集成多种阿里云大数据计算服务,如MaxCompute、Hologres等,助力政府、金融、零售等行业实现数据全生命周期管理,推动数字化转型和数据资产增值。
|
监控 关系型数据库 MySQL
数据治理平台Datavines
【10月更文挑战第20天】随着数据量的增长和数字化转型的推进,数据治理成为关键议题。Datavines是一个开源的数据治理平台,提供数据目录、概览及质量检查等功能,帮助用户全面了解和管理数据,确保数据的准确性和有效性。通过简单的部署和配置,即可快速启动使用,支持数据源配置、质量监控及作业管理等核心功能。
3295 10