开发者社区> 问答> 正文

Dataphin数据血缘是如何配置采集的?

Dataphin数据血缘是如何配置采集的?

展开
收起
你鞋带开了~ 2024-03-05 20:43:32 35 1
2 条回答
写回答
取消 提交回答
  • 任务提交时解析开发表血缘,发布时解析生产表血缘。表级血缘来源包括集成任务、自定义血缘任务及系统可自动解析的 SQL 任务。
    --此回答整理自钉群“Dataphin公共云答疑群”

    2024-03-06 11:55:04
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Dataphin 数据血缘的配置采集主要通过以下步骤进行:

    1. 创建血缘组:在 Dataphin 中,每个任务可以配置多个血缘组。血缘组内的每个输入和输出会一一对应生成血缘关系,而不同的血缘组之间是独立的。
    2. 配置输入输出:在每个血缘组内,需要配置输入表和输出表,以及对应的字段。例如,可以选择表 A 的 a 字段作为输入,表 B 的 b 字段作为输出,系统会根据这些配置生成表级和字段级的血缘关系。
    3. 选择血缘解析方式:Dataphin 提供了自动血缘解析和手动配置血缘两种方式。自动血缘解析是由系统解析数据处理和迁移类型节点后自动产生的,无需手动配置。在不支持自动血缘解析的场景下,可以选择手动配置血缘关系。
    4. 注意约束限制:在进行手动配置血缘时,需要注意该节点的自动血缘解析将不生效。因此,在选择手动配置之前,应确保了解相关的约束限制。
    5. 利用数据集成功能:Dataphin 的数据集成功能支持数据清洗转换,提供了多种组件或函数,如字段计算、合并、分发、过滤、字段脱敏等,这些都可以在配置血缘时使用,以增强数据处理的能力。
    6. 元数据检索与可视化探查:Dataphin 支持元数据检索,可以对作业依赖、字段血缘进行可视化探查,这有助于在配置血缘时更好地理解和管理数据流转。

    综上所述,通过以上步骤,可以在 Dataphin 中有效地配置和采集数据血缘,帮助实现数据的来源追踪和变更管理,从而提升数据的治理能力和质量保障。

    2024-03-05 21:21:28
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
问答排行榜
最热
最新

相关电子书

更多
构建企业级好数据(Dataphin智能数据建设与治理白皮书) 立即下载
低代码开发师(初级)实战教程 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载