👉🏻场景
在构建全链路数据地图时,如果上游来源系统或下游消费系统的血缘缺失,可能导致链路断裂。例如:某张表在被采集至Dataphin前已通过外部ETL从上游库同步而来,若这段血缘缺失,进入Dataphin后就难以回溯源头并评估变更对下游的影响。那Dataphin 是否支持对外部系统血缘进行统一纳管与可视化展示呢?
👉🏻 解决方案及功能
Dataphin 提供 OpenAPI 注册表血缘能力,补全全链路血缘。血缘注册时需指明以下三个核心部分:
- Source:来源表。
- Target:目标表。
- DetailedLineages:表的字段血缘集合。
可通过id(guid)或属性组合来唯一定位血缘关系中的对象。本次介绍属性组合的方式,尤其适用于血缘关系中包含非Dataphin资产的情况。
- 表级资产血缘请求参数配置(Source/Target):
字段名称 |
字段描述 |
填写示例 |
ReferenceType |
资产引用类型:通过guid还是属性定位资产,此处选择填写 |
|
MetadataType |
资产类型: |
|
MetadataSubType |
资产子类型,包括:PHYSICAL_TABLE, PHYSICAL_VIEW, PHYSICAL_MATERIALIZED_VIEW, DATASOURCE_TABLE, DATASOURCE_VIEW, DATASOURCE_MATERIALIZED_VIEW, DIM_NORMAL, DIM_LEVEL, DIM_ENUM, DIM_VIRTUAL, FACT_EVENT, FACT_PROCESS, FACT_SNAPSHOT, SUM_BIZ_UNIT |
|
Catalog |
系统根据 catalog+schema+env 确定对应资产: 若资产为dataphin表,catalog 统一为 dataphin;数据源表,填写数据源名称。 |
|
Schema |
若资产为dataphin物理表,填写项目名;dataphin逻辑表,填写板块名;数据源表,填写所属数据源database/schema。 |
|
Env |
资产所属环境,可填dev,prod |
|
Name |
资产名称 |
|
- 字段级血缘请求参数配置(Source/Target),可以为空:
字段名称 |
字段解释 |
填写示例 |
ReferenceType |
资产引用类型:通过guid还是属性定位资产,此处选择填写 |
|
MetadataType |
资产类型:COLUMN |
|
Catalog |
系统根据 catalog+schema+env 确定对应资产: 若字段所属表为dataphin表,catalog 统一为 dataphin;数据源表,填写数据源名称。 |
|
Schema |
若字段所属表为dataphin物理表,填写项目名;dataphin逻辑表,填写板块名;数据源表,填写所属数据源database/schema。 |
|
Env |
资产所属环境,可填dev,prod |
|
Name |
字段名称 |
|
👉🏻 操作验证:
- 当我们明确上游和下游资产的Catalog、Schema等信息时,在公共云环境进行参数填写并调用测试,可以看到返回数据成功。
- 随后,我们便可以在资产目录看到注册成功的数据血缘。