Dataphin功能Tips系列(96)Dataphin 构建外部数据系统血缘统一管理解决方案(2)

简介: Dataphin通过OpenAPI支持外部系统血缘纳管,可基于Catalog/Schema/Env等属性组合注册表级与字段级血缘,补全全链路数据地图,实现跨系统血缘可视化与影响分析。

👉🏻场景

在构建全链路数据地图时,如果上游来源系统或下游消费系统的血缘缺失,可能导致链路断裂。例如:某张表在被采集至Dataphin前已通过外部ETL从上游库同步而来,若这段血缘缺失,进入Dataphin后就难以回溯源头并评估变更对下游的影响。那Dataphin 是否支持对外部系统血缘进行统一纳管与可视化展示呢?

👉🏻 解决方案及功能

Dataphin 提供 OpenAPI 注册表血缘能力,补全全链路血缘。血缘注册时需指明以下三个核心部分:

  • Source:来源表。
  • Target:目标表。
  • DetailedLineages:表的字段血缘集合。

可通过id(guid)或属性组合来唯一定位血缘关系中的对象。本次介绍属性组合的方式,尤其适用于血缘关系中包含非Dataphin资产的情况。

  • 表级资产血缘请求参数配置(Source/Target):

字段名称

字段描述

填写示例

ReferenceType

资产引用类型:通过guid还是属性定位资产,此处选择填写BY_PROPERTY

BY_PROPERTY

MetadataType

资产类型:TABLE

TABLE

MetadataSubType

资产子类型,包括:PHYSICAL_TABLE, PHYSICAL_VIEW, PHYSICAL_MATERIALIZED_VIEW, DATASOURCE_TABLE, DATASOURCE_VIEW, DATASOURCE_MATERIALIZED_VIEW, DIM_NORMAL, DIM_LEVEL, DIM_ENUM, DIM_VIRTUAL, FACT_EVENT, FACT_PROCESS, FACT_SNAPSHOT, SUM_BIZ_UNIT

DATASOURCE_TABLE

Catalog

系统根据 catalog+schema+env 确定对应资产:

若资产为dataphin表,catalog 统一为 dataphin;数据源表,填写数据源名称。

dataphin

Schema

若资产为dataphin物理表,填写项目名;dataphin逻辑表,填写板块名;数据源表,填写所属数据源database/schema。

project_a_name

Env

资产所属环境,可填dev,prod

prod

Name

资产名称

table_a_name

  • 字段级血缘请求参数配置(Source/Target),可以为空:

字段名称

字段解释

填写示例

ReferenceType

资产引用类型:通过guid还是属性定位资产,此处选择填写BY_PROPERTY

BY_PROPERTY

MetadataType

资产类型COLUMN

COLUMN

Catalog

系统根据 catalog+schema+env 确定对应资产:

若字段所属表为dataphin表,catalog 统一为 dataphin;数据源表,填写数据源名称。

dataphin

Schema

若字段所属表为dataphin物理表,填写项目名;dataphin逻辑表,填写板块名;数据源表,填写所属数据源database/schema。

project_a_name

Env

资产所属环境,可填dev,prod

prod

Name

字段名称

column_a_name

👉🏻 操作验证:

  1. 当我们明确上游和下游资产的Catalog、Schema等信息时,在公共云环境进行参数填写并调用测试,可以看到返回数据成功

  2. 随后,我们便可以在资产目录看到注册成功的数据血缘。

相关文章
|
6月前
|
SQL 数据可视化 大数据
Dataphin数据血缘:实现全面追溯,保障流转透明
数据血缘揭示数据从源头到应用的全链路流转关系,助力企业厘清数据来源、影响范围与质量问题根源。Dataphin通过自动采集、手动配置和OpenAPI注册三类方式构建全面的数据血缘,支持可视化展示与用于质量问题溯源,实现数据可查、可信、可管,推动高质量数据治理。
755 1
|
2月前
|
Kubernetes 调度 流计算
Flink on Kubernetes 自定义镜像能力:让企业存量实时任务零成本迁移,实现统一平台管控
Dataphin推出Flink on Kubernetes自定义镜像能力,支持企业直接复用存量业务镜像与K8s配置,零代码改造、零环境风险完成实时任务迁移,实现“业务不动、管控升级”,兼顾稳定性与平台化治理。
129 0
|
4月前
|
数据采集 存储 SQL
一次采样,全局复用:Dataphin告别重复数据采集,显著释放效能
Dataphin推出全局采样配置功能,实现样例数据“一次采样,多处复用”,支持数据预览、安全分类、标准映射等场景,通过统一策略管理、资源灵活管控,提升数据使用效率,降低计算资源消耗。
222 0
|
5月前
|
数据采集 人工智能 运维
Dataphin功能Tips系列(85)告别“人肉排障”:AI驱动数据质量根因诊断,让治理效率跃升
传统数据治理中,数据质量问题依赖人工排查,效率低且难定位根因。Dataphin 5.4推出X-数据质量根因诊断功能,基于AI大模型分析数据血缘与采样,智能定位问题源头,自动生成整改建议与影响评估,实现从发现问题到闭环治理的自动化,大幅提升治理效率与准确性。
272 0
|
6月前
|
数据采集 人工智能
Dataphin X-数据质量,智能分析质量问题并推荐整改建议
针对数据治理中质量问题难发现、根因定位难、整改效率低等痛点,推出AI驱动的数据质量问题智能分析功能。通过智能分析异常、追溯根因、构建数据证据链,自动生成含改进建议与影响评估的质量报告,提升治理效率与决策可靠性。
309 3
|
7月前
|
数据采集 SQL 数据可视化
Dataphin功能Tips系列(72)一键数据探查,打造高质量数据开发、分析流程
Dataphin数据探查功能助力高效识别数据质量问题,支持手动与自动两种探查模式。通过一键生成质量报告,快速检测空值、异常值、重复值等问题,全面掌握数据分布与健康状况,提升数据准备与分析准确性。
478 7
|
2月前
Dataphin登录系统重磅升级:界面化SSO配置、多账号登录功能上线
Dataphin V6.0推出界面化SSO配置与多账号体系登录功能,支持CAS、OAuth2.0、SAML、飞书等多种协议,解决旧版配置复杂、不支持多源登录等痛点,提升企业单点登录体验与管理效率。
207 0
|
6月前
|
Prometheus 运维 Cloud Native
采集“注册调度集群”核心指标,资源消耗尽在掌握
Dataphin新增支持采集“注册调度集群”的资源指标,助力企业高效管理资源分配。
129 2
|
8月前
|
SQL 分布式计算 关系型数据库
Dataphin x Paimon 开箱即用的数据湖治理解决方案
Dataphin深度集成Apache Paimon,通过全链路功能适配和性能优化,为企业提供开箱即用的数据湖治理解决方案。
460 2
|
6月前
|
SQL 关系型数据库 MySQL
释放数据潜能,加速业务创新 —— Dataphin 5.4 新增删改API功能
Dataphin 5.4推出数据增删改API功能,支持通过配置SQL快速生成安全、可管理的CRUD接口,覆盖AI编程、数据集成、低代码等场景,降低开发成本,提升数据治理与安全性,助力企业高效释放数据价值。
403 0