Dataphin功能Tips系列(94)Dataphin 构建外部数据系统血缘统一管理解决方案(1)

简介: Dataphin支持通过OpenAPI注册外部系统血缘,补全全链路数据地图断点。提供BY_GUID/BY_PROPERTY两种方式,支持表级与字段级血缘纳管及可视化展示,助力血缘追溯与影响分析。

👉🏻场景

在构建全链路数据地图时,如果上游来源系统或下游消费系统的血缘缺失,可能导致链路断裂。例如:某张表在被采集至Dataphin前已通过外部ETL从上游库同步而来,若这段血缘缺失,进入Dataphin后就难以回溯源头并评估变更对下游的影响。那Dataphin 是否支持对外部系统血缘进行统一纳管与可视化展示呢?

👉🏻 解决方案及功能

Dataphin 提供 OpenAPI 注册表血缘能力,支持补全全链路血缘信息。血缘注册时需指明以下三个核心部分:

  • Source:来源表血缘。
  • Target:目标表血缘。
  • DetailedLineages:隶属于表的字段级(Column)血缘。

Dataphin 支持两种血缘注册方式:BY_GUID BY_PROPERTY。本文介绍 BY_GUID 的配置方法,适用于来源或下游血缘已在 Dataphin 元数据中存在的场景(例如计算源表、逻辑表或已采集的数据源表等),核心配置字段如下:

  • 表级资产血缘配置(Source/Target):

字段名称

字段描述

填写示例

ReferenceType

资产引用类型:即通过哪种方式识别并注册资产,此处填写为 BY_GUID

BY_GUID

Guid

Guid:资产唯一标识,此处通过 Guid 确认资产。

odps.3001011.ld_dummy.dim_ods_order

MetadataType

资产类型TABLE

TABLE

  • 字段级血缘配置(Source/Target),可以为空:

字段名称

字段解释

填写示例

ReferenceType

资产引用类型:即通过哪种方式识别并注册资产,此处填写为 BY_GUID

BY_GUID

Guid

资产Guid:资产唯一标识,此处为表字段Guid

odps.3001011.ld_dummy.dim_ods_order.order_id

ParentGuid

父资产标识:仅在注册字段血缘时必填,指向该字段所属表的 GUID。

odps.3001011.ld_dummy.dim_ods_order

MetadataType

资产类型COLUMN

COLUMN

👉🏻 操作验证:

  1. 当我们明确上游和下游资产的GUID等信息时,在公共云环境进行参数填写并调用测试,可以看到返回数据成功

  2. 随后,我们便可以在资产目录看到注册成功的数据血缘。


如何获取表/字段的 Guid:

  1. 页面导出:通过Dataphin目录管理中导出资产的Table/Column表 获取。
  2. OpenAPI 调用:ListTables获取表GUID,GetTablesColumns 获取字段 GUID。
  3. 手动拼接:通过各信息组合拼接,不同的表类型有不同的拼接格式。如 逻辑表的GUID为:dp_table.{租户ID}.{project_name}.{table_name},逻辑表字段GUID则在表后增加{column}
相关文章
|
21天前
|
数据可视化 定位技术
Dataphin功能Tips系列(96)Dataphin 构建外部数据系统血缘统一管理解决方案(2)
Dataphin通过OpenAPI支持外部系统血缘纳管,可基于Catalog/Schema/Env等属性组合注册表级与字段级血缘,补全全链路数据地图,实现跨系统血缘可视化与影响分析。
|
4月前
|
SQL 数据可视化 大数据
Dataphin数据血缘:实现全面追溯,保障流转透明
数据血缘揭示数据从源头到应用的全链路流转关系,助力企业厘清数据来源、影响范围与质量问题根源。Dataphin通过自动采集、手动配置和OpenAPI注册三类方式构建全面的数据血缘,支持可视化展示与用于质量问题溯源,实现数据可查、可信、可管,推动高质量数据治理。
568 1
|
3月前
|
数据采集 人工智能 运维
Dataphin功能Tips系列(85)告别“人肉排障”:AI驱动数据质量根因诊断,让治理效率跃升
传统数据治理中,数据质量问题依赖人工排查,效率低且难定位根因。Dataphin 5.4推出X-数据质量根因诊断功能,基于AI大模型分析数据血缘与采样,智能定位问题源头,自动生成整改建议与影响评估,实现从发现问题到闭环治理的自动化,大幅提升治理效率与准确性。
193 0
|
4月前
|
Prometheus 运维 Cloud Native
采集“注册调度集群”核心指标,资源消耗尽在掌握
Dataphin新增支持采集“注册调度集群”的资源指标,助力企业高效管理资源分配。
105 2
|
6月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
407 2
|
3月前
|
SQL 自然语言处理 BI
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
Dataphin推出【X-分析】Agent,支持非技术用户通过自然语言提问,自动生成SQL并执行查询,快速获取数据结果。用户可新建分析专辑,结合业务数据与提示词优化模型理解,实现精准取数。支持SQL审核编辑、保存至Notebook或一键创建Quick BI数据集,打通从查询到分析的全流程,降低人力成本,提升数据消费效率,助力业务自助高效用数。
141 0
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
|
2月前
|
数据采集 存储 SQL
一次采样,全局复用:Dataphin告别重复数据采集,显著释放效能
Dataphin推出全局采样配置功能,实现样例数据“一次采样,多处复用”,支持数据预览、安全分类、标准映射等场景,通过统一策略管理、资源灵活管控,提升数据使用效率,降低计算资源消耗。
152 0
|
2月前
|
大数据 调度
实时数据入湖消费闭环利器:新增检查节点,破解离线任务依赖校验难题
新增“检查节点”功能,通过精准位点校验与灵活配置,解决实时数据入湖后离线任务依赖判断难题,提升数据链路稳定性与研发效率。
114 3
|
7月前
|
搜索推荐 数据管理
Dataphin功能Tips系列(70)自定义菜单:构建一站式数据管理平台
Dataphin通过自定义菜单功能,支持嵌入企业其他平台URL,实现统一的数据开发与管理平台,提升团队协作效率。
255 8