Dataphin功能Tips系列(96)Dataphin 构建外部数据系统血缘统一管理解决方案(2)

简介: Dataphin通过OpenAPI支持外部系统血缘纳管,可基于Catalog/Schema/Env等属性组合注册表级与字段级血缘,补全全链路数据地图,实现跨系统血缘可视化与影响分析。

👉🏻场景

在构建全链路数据地图时,如果上游来源系统或下游消费系统的血缘缺失,可能导致链路断裂。例如:某张表在被采集至Dataphin前已通过外部ETL从上游库同步而来,若这段血缘缺失,进入Dataphin后就难以回溯源头并评估变更对下游的影响。那Dataphin 是否支持对外部系统血缘进行统一纳管与可视化展示呢?

👉🏻 解决方案及功能

Dataphin 提供 OpenAPI 注册表血缘能力,补全全链路血缘。血缘注册时需指明以下三个核心部分:

  • Source:来源表。
  • Target:目标表。
  • DetailedLineages:表的字段血缘集合。

可通过id(guid)或属性组合来唯一定位血缘关系中的对象。本次介绍属性组合的方式,尤其适用于血缘关系中包含非Dataphin资产的情况。

  • 表级资产血缘请求参数配置(Source/Target):

字段名称

字段描述

填写示例

ReferenceType

资产引用类型:通过guid还是属性定位资产,此处选择填写BY_PROPERTY

BY_PROPERTY

MetadataType

资产类型:TABLE

TABLE

MetadataSubType

资产子类型,包括:PHYSICAL_TABLE, PHYSICAL_VIEW, PHYSICAL_MATERIALIZED_VIEW, DATASOURCE_TABLE, DATASOURCE_VIEW, DATASOURCE_MATERIALIZED_VIEW, DIM_NORMAL, DIM_LEVEL, DIM_ENUM, DIM_VIRTUAL, FACT_EVENT, FACT_PROCESS, FACT_SNAPSHOT, SUM_BIZ_UNIT

DATASOURCE_TABLE

Catalog

系统根据 catalog+schema+env 确定对应资产:

若资产为dataphin表,catalog 统一为 dataphin;数据源表,填写数据源名称。

dataphin

Schema

若资产为dataphin物理表,填写项目名;dataphin逻辑表,填写板块名;数据源表,填写所属数据源database/schema。

project_a_name

Env

资产所属环境,可填dev,prod

prod

Name

资产名称

table_a_name

  • 字段级血缘请求参数配置(Source/Target),可以为空:

字段名称

字段解释

填写示例

ReferenceType

资产引用类型:通过guid还是属性定位资产,此处选择填写BY_PROPERTY

BY_PROPERTY

MetadataType

资产类型COLUMN

COLUMN

Catalog

系统根据 catalog+schema+env 确定对应资产:

若字段所属表为dataphin表,catalog 统一为 dataphin;数据源表,填写数据源名称。

dataphin

Schema

若字段所属表为dataphin物理表,填写项目名;dataphin逻辑表,填写板块名;数据源表,填写所属数据源database/schema。

project_a_name

Env

资产所属环境,可填dev,prod

prod

Name

字段名称

column_a_name

👉🏻 操作验证:

  1. 当我们明确上游和下游资产的Catalog、Schema等信息时,在公共云环境进行参数填写并调用测试,可以看到返回数据成功

  2. 随后,我们便可以在资产目录看到注册成功的数据血缘。

相关文章
|
4月前
|
SQL 数据可视化 大数据
Dataphin数据血缘:实现全面追溯,保障流转透明
数据血缘揭示数据从源头到应用的全链路流转关系,助力企业厘清数据来源、影响范围与质量问题根源。Dataphin通过自动采集、手动配置和OpenAPI注册三类方式构建全面的数据血缘,支持可视化展示与用于质量问题溯源,实现数据可查、可信、可管,推动高质量数据治理。
565 1
|
3月前
|
数据采集 人工智能 运维
Dataphin功能Tips系列(85)告别“人肉排障”:AI驱动数据质量根因诊断,让治理效率跃升
传统数据治理中,数据质量问题依赖人工排查,效率低且难定位根因。Dataphin 5.4推出X-数据质量根因诊断功能,基于AI大模型分析数据血缘与采样,智能定位问题源头,自动生成整改建议与影响评估,实现从发现问题到闭环治理的自动化,大幅提升治理效率与准确性。
190 0
|
2月前
|
数据采集 存储 SQL
一次采样,全局复用:Dataphin告别重复数据采集,显著释放效能
Dataphin推出全局采样配置功能,实现样例数据“一次采样,多处复用”,支持数据预览、安全分类、标准映射等场景,通过统一策略管理、资源灵活管控,提升数据使用效率,降低计算资源消耗。
151 0
|
4月前
|
数据采集 人工智能
Dataphin X-数据质量,智能分析质量问题并推荐整改建议
针对数据治理中质量问题难发现、根因定位难、整改效率低等痛点,推出AI驱动的数据质量问题智能分析功能。通过智能分析异常、追溯根因、构建数据证据链,自动生成含改进建议与影响评估的质量报告,提升治理效率与决策可靠性。
244 3
|
5月前
|
数据采集 SQL 数据可视化
Dataphin功能Tips系列(72)一键数据探查,打造高质量数据开发、分析流程
Dataphin数据探查功能助力高效识别数据质量问题,支持手动与自动两种探查模式。通过一键生成质量报告,快速检测空值、异常值、重复值等问题,全面掌握数据分布与健康状况,提升数据准备与分析准确性。
387 7
|
SQL 分布式计算 Apache
Dataphin x Iceberg 开箱即用的数据湖治理解决方案
Apache Iceberg作为新一代开源数据湖表格式,具备ACID事务、时间旅行和高效Schema演化等能力。Dataphin已完成与Iceberg的深度集成,通过全链路适配与性能优化,为企业提供开箱即用的数据湖治理方案,涵盖数据源支持、离线与实时数据集成、数据研发等核心模块,助力构建现代化数据架构。
427 0
|
3月前
|
SQL 自然语言处理 BI
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
Dataphin推出【X-分析】Agent,支持非技术用户通过自然语言提问,自动生成SQL并执行查询,快速获取数据结果。用户可新建分析专辑,结合业务数据与提示词优化模型理解,实现精准取数。支持SQL审核编辑、保存至Notebook或一键创建Quick BI数据集,打通从查询到分析的全流程,降低人力成本,提升数据消费效率,助力业务自助高效用数。
140 0
Dataphin功能Tips系列(87)Dataphin「X-分析」:自然语言开启自助取数新时代
|
3月前
|
数据采集 运维 调度
Dataphin功能Tips系列(88)补数据场景下,如何实现质量规则的精准回溯校验?
在数据补跑场景中,为精准校验指定历史日期(如12月18日)的数据,质量管理员应使用基于业务日期的表达式 ds='${yyyyMMdd}' 配置调度规则。该方式支持手动执行时动态关联所选业务日期,确保校验范围准确指向目标数据,实现高效、精确的质量校验。
147 0
|
4月前
|
Prometheus 运维 Cloud Native
采集“注册调度集群”核心指标,资源消耗尽在掌握
Dataphin新增支持采集“注册调度集群”的资源指标,助力企业高效管理资源分配。
105 2
|
6月前
|
SQL 运维 关系型数据库
【产品升级】Dataphin V5.0版本发布:助力出海业务、增全量一体集成、异步调用API等更多功能等你发现
Dataphin是瓴羊推出的智能数据建设与治理平台,基于阿里巴巴内部实践,提供一站式数据建设与治理能力。V5.0版本研发新增支持Databricks作为离线计算引擎、支持MySQL数据库一键增全量同步、支持管理Hudi、Delta Lake表等;资产运营与消费持续提效,支持批量编辑目录名称及描述、Quick BI仪表板的上架管理等功能,增加资产可用性与盘点效率。
349 8

热门文章

最新文章