大数据计算MaxCompute的数据血缘可以在哪里看到?

大数据计算MaxCompute的数据血缘可以在哪里看到?

展开
收起
真的很搞笑 2024-04-17 13:20:17 48 分享 版权
阿里云 AI 助理回答

在阿里云的大数据计算服务MaxCompute中,数据血缘信息可以通过以下方式查看和管理:

1. 通过DataWorks数据地图查看数据血缘

  • 登录DataWorks控制台,切换至目标地域。
  • 在左侧导航栏中,单击数据目录 > 数据地图,进入数据地图页面。
  • 在搜索框中输入表名、字段名称等关键字,查找目标表。
  • 单击目标表名称,进入表详情页面。
  • 在表详情页面中,您可以查看以下内容:
    • 基础信息:包括表的名称、描述、所属项目等。
    • 技术信息:如表的DDL语句、存储位置等。
    • 产出信息:表的生成任务及其相关信息。
    • 血缘信息:展示该表的上下游依赖关系,包括数据来源和去向。
  • 重要提示:如果表的血缘信息未显示,请确认是否已配置元数据采集器,并等待T+1更新(部分场景下,血缘信息可能存在延迟)。

2. 通过PyODPS节点手动设置数据血缘

  • 如果您通过PyODPS节点执行SQL任务,但发现数据血缘无法正常生成,可以通过手动设置调度运行参数解决。
  • 示例代码如下:

    import os
    
    # 获取DataWorks调度运行时参数
    skynet_hints = {}
    for k, v in os.environ.items():
        if k.startswith('SKYNET_'):
            skynet_hints[k] = v
    
    # 提交任务时设置hints参数
    o.execute_sql('INSERT OVERWRITE TABLE XXXX SELECT * FROM YYYY WHERE ***', hints=skynet_hints)
    
  • 说明:通过上述方式设置hints参数后,数据血缘信息将能够正确生成并展示在数据地图中。

3. 跨数据服务的血缘关系

  • MaxCompute支持与其他数据服务(如Hologres、Flink)之间的血缘关系查看。
  • 在数据地图中,您可以查看MaxCompute表与Hologres表之间的血缘关系,以及Hologres与Flink之间的血缘关系。
  • 前提条件:需要确保相关数据源的元数据采集器已正确配置,并且数据地图功能已启用。

4. 湖仓一体场景下的血缘查看

  • 如果您使用的是基于DLF、OSS或Hadoop的湖仓一体方案,可以通过以下步骤查看外部项目的元数据及血缘信息:
    1. 在DataWorks控制台页面左侧导航栏,单击工作空间列表
    2. 选择与外部项目绑定的工作空间,单击操作列的数据地图
    3. 在数据地图页面的搜索框中输入外部项目中的表名进行搜索。
    4. 单击目标表名称,查看其元数据信息及血缘关系。
  • 注意:在湖仓一体场景下,表的血缘信息可能暂时不可用,具体取决于映射端(如Hive)的元数据更新情况。

5. 权限与限制

  • 权限要求:查看生产环境中的表血缘信息时,需确保当前账号具有相应的权限。若无权限,需前往安全中心申请。
  • 更新延迟:部分场景下,表的元数据信息为T+1更新,即当天的修改会在次日体现。
  • 功能限制:在某些特定场景(如湖仓一体外部项目),表的申请权限查看血缘功能可能暂时不可用。

通过以上方法,您可以高效地查看和管理MaxCompute的数据血缘信息,帮助您更好地理解数据流转和依赖关系。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

还有其他疑问?
咨询AI助理