细说Dataphin自动解析

简介: Dataphin自动解析

Dataphin v3.10 版本对调度依赖配置做了比较大的调整,主要的变更点有:

  1. 统一了 集成同步任务,计算任务和逻辑表的调度依赖交互
  2. 上游依赖列表调整
  1. 本周期依赖和上周期依赖合并到同一个列表
  2. 增加了依赖任务筛选
  3. 依赖任务列表项扩展展示更多信息,如: 调度周期,依赖周期,是否开启条件调度
  1. 自动解析优化,自动解析不再依赖节点输出名,而是直接使用任务与表的血缘关系,本文将着重说明。
  2. 弱化节点输出名,用户无需再配置输出名,也不用刻意关注。

自动解析流程

下图为 v3.10 版本自动解析的流程

新的流程与原来的旧流程的区别对比如下:

对比项

v3.9 及之前版本

v3.10 版本

改进点

解析结果

输入表

输入表

维护 输入表与产出任务关系 的系统

调度系统内部(节点输出名)

资产血缘

1. 集成任务,SQL 计算任务,逻辑表提交发布时,系统自动根据任务的逻辑生成任务与该任务的输出表的映射关系(即 表与产出任务 血缘),无须用户人工干预

2. shell/python/mr 等任务用户可以通过自定义血缘补充血缘数据

3. 血缘数据覆盖度和准确度比较高,原来的节点输出名覆盖度和准确度相对较低(节点输出名可以被人工干预,准确性不足)

找不到输入表对应产出任务时的处理策略

直接忽略

列举在依赖列表中,需要用户人工处理

可以帮助发现没有产出任务的依赖表,避免出现依赖缺失的情况

资产血缘

v3.10 自动解析使用了资产血缘,这又是什么呢?

在资产目录中,打开一个表,进入表资产详情,可以在资产信息中,看到该表的产出信息,见下图。

  1. 当集成任务,SQL 计算任务,逻辑表提交发布时,系统会自动将当前任务节点的信息与输出表之间的关系维护到资产中。
  2. 对于 shell/python/mr 等非 SQL 任务,Dataphin 无法从任务代码中解析到输出表,用户可以通过自定义血缘的方式补充血缘信息,见下图。

大部分的表与任务的映射关系都是由系统自动生成和维护的,保障了数据的准确度;人工填报的自定义血缘,提高了覆盖度。

节点输出名

v3.10 的自动解析已经不依赖节点输出名,此处还是解释下节点输出名是做什么的。

在此之前,先来说明几个概念:

  1. Dataphin 节点就是任务,包含 集成任务,计算任务,逻辑表任务 等
  2. 节点名称(任务名称) ,集成任务和计算任务创建时由用户输入的用户名称,逻辑表任务名称与逻辑表名相同。由于历史原因,节点名称没有设计为全局唯一,而是在导航目录下唯一。
  3. 节点(任务) ID,是节点(任务)提交时,系统自动生成的全局唯一 ID。任务发布后,开发环境与生成环境的 ID 需要保持一致。但由于历史原因,这个原则在历史版本中未落实(指向不唯一)。
  4. 任务提交发布后,调度系统需要一个全局唯一 ID 来明确定位某一个节点(任务),以生成调度依赖图(DAG)。

由于节点名称和节点 ID 无法确保全局唯一且指向唯一,因此引入了“节点输出名”来承担节点全局唯一 ID 的作用。

在 v3.9 及之前版本,节点输出名还承载着输出表与节点任务映射关系的作用。节点输出名称如果与某一个表的名称(格式为 {生产项目名.表名称})一致,则认为该节点产出了该表。节点输出名的生成机制:

  1. SQL 计算任务自动解析时,系统会自动为每一个输出表生成一个节点输出名
  2. 逻辑表任务的输出名就是逻辑表名
  3. 集成任务的输出名在早期版本需要用户人工填写,后期的版本自动解析为每一个输出表生成一个节点输出名
  4. shell/python/mr 等任务的节点输出名需要用户人工填写

存在以下问题:

  1. 系统自动生成的节点输出名可以被人工编辑修改,存在误操作风险
  2. 输出名的格式有严格的要求,必须是 {生产项目名.表名称},用户人工填写时,容易错误输入

以上问题导致节点输出名的准确度和覆盖度都不如资产血缘,因此 v3.10 自动解析升级后,切换到了后者。

相关文章
|
SQL 分布式计算 数据挖掘
《智能数据建设与治理 Dataphin》的最佳实践
本文介绍了使用Dataphin进行离线数仓搭建的实操教程,涵盖从创建数据板块到数据分析的完整流程。内容包括登录控制台、配置计算源、创建离线管道、生成SQL语句、运行任务及验证数据等步骤。通过详细的操作指南和截图,帮助用户快速上手Dataphin,体验其强大的数据治理能力。总结中提到教程存在部分陈旧问题,建议加深对产品逻辑的理解以更好地掌握工具使用。
635 1
|
运维 分布式计算 监控
Dataphin深度评测:企业级数据中台的智能实践利器
Dataphin是一款以全链路治理、智能提效和高兼容性为核心的企业级数据中台工具,特别适用于中大型企业的复杂数据场景。其流批一体能力、资源监控工具及行业化模板库可显著提升数据治理水平并降低运维成本。通过周期补数据功能,历史数据修复效率提升约60%;智能建模功能使建模时间缩短50%。尽管在数据源支持(如SAP HANA、DB2)和用户体验上仍有改进空间,但其强大的功能使其成为构建企业级数据中台的优选工具,尤其适合零售、金融等行业需要高效数据治理与实时分析的企业。
|
11月前
|
存储 数据采集 监控
数据标准码表的3种创建方式
码表(Lookup表)由可枚举数据组成,用于存储名称与编码的映射关系,适用于属性值约束和质量监控。本文介绍在Dataphin创建码表的三种方式:1) 引用内置模板库,如行政区划、度量单位等标准码表;2) 从已有维表逆向生成码表,实现数据资产复用;3) 自定义创建,支持在线编辑或本地导入。通过这些方式,用户可高效管理码表,提升数据标准化水平,并将其应用于数据标准和质量规则中,确保数据一致性和合规性。
520 3
|
SQL 分布式计算 运维
dataphin评测报告
本文是一篇关于Dataphin的使用总结与测评报告。作为一位开发工程师,作者在使用Dataphin过程中发现其具备数据规范化构建、全链路数据治理、数据资产化及跨平台兼容的优势,能有效降低开发门槛并提升效率。文章详细介绍了从进入工作台到数据规划、引入数据、数据处理、功能周期任务补数据、数据验证以及数据分析的全流程操作步骤,并通过截图辅助说明,帮助用户快速上手Dataphin,实现高效的数据开发与治理,在测评使用过程中整体感觉dataphin这个产品功能非常强大,能够为开发人员提高工作效率,界面也是比较清晰的感觉,容易初学者上手学习。
306 3
dataphin评测报告
|
SQL 分布式计算 数据挖掘
智能数据建设与治理 Dataphin 评测报告
本文详细记录了测试开发工程师“宏哥”对阿里巴巴云产品Dataphin的评测体验。Dataphin是一款基于OneData数据治理方法论的企业级数据中台工具,提供数据采集、建模、管理与应用的全生命周期能力。评测从开通试用、环境准备、项目创建到任务开发、周期补数据、即席分析及数据分析等多个环节展开。宏哥按照官方手册完成了数据处理全流程,但也指出了一些问题:如部分操作步骤不够清晰、新手友好数不足(例如SQL脚本编写难度)、以及业务流程逻辑需进一步优化。整体来看,Dataphin在数据同步、周期补数据和即席分析等方面表现出色,但用户体验和学习成本仍有提升空间。
399 8
|
9月前
|
数据采集 监控 数据管理
数据管理最容易混淆的3个概念:元数据、数据元、元模型
本文深入解析数据领域三大核心概念:“元数据”“数据元”“元模型”,从定义、用途到实际应用,清晰区分三者区别。元数据是“数据的说明书”,描述数据来源与使用方式;数据元是“最小数据单元”的标准,确保数据统一与规范;元模型是“模型的设计规则”,指导模型合理构建。三者相辅相成,是数据治理不可或缺的基础。掌握它们,助你提升数据管理效率,避免踩坑。
|
SQL 数据采集 分布式计算
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
Dataphin是一款智能数据建设与治理平台,基于阿里巴巴OneData方法论,提供从数据采集、建模研发到资产治理、数据服务的全链路智能化能力。它帮助企业解决数据口径混乱、质量参差等问题,构建标准化、资产化、服务化的数据中台体系。本文通过详细的操作步骤,介绍了如何使用Dataphin进行离线数仓搭建,包括规划数仓、数据集成、数据处理、运维补数据及验证数据等环节。尽管平台功能强大,但在部署文档更新、新手友好度及基础功能完善性方面仍有提升空间。未来可引入SQL智能纠错、自然语言生成报告等功能,进一步增强用户体验与数据治理效率。
1175 34
Dataphin测评:企业级数据中台的「智能中枢」与「治理引擎」
|
数据采集 分布式计算 安全
云产品评测|智能数据建设与治理 Dataphin
Dataphin是阿里巴巴OneData方法论的云化输出,提供数据采集、建模、管理到应用的全生命周期大数据能力,助力企业构建高质量、安全经济的数据中台。支持多计算平台与开放拓展,适配各行业需求。本文档介绍Dataphin部署流程:准备数据样本,新建数据板块,配置参数,新增MaxCompute计算源,获取并校验AccessKey ID。具体操作详见阿里云官方文档,确保每步准确执行以完成数据治理与建设。
628 9
|
12月前
|
数据采集 安全 大数据
Dataphin 5.1:API数据源及管道组件升级,适配多样化认证的API
为提升API数据交互安全性,Dataphin 5.1推出两种新认证方式:基于OAuth 2.0的动态授权与请求签名认证。前者通过短期Access Token确保安全,后者对关键参数加密签名保障数据完整性。功能支持API数据源OAuth 2.0认证和自定义签名配置,未来还将拓展更灵活的认证方式以满足多样化需求。
312 14
|
分布式计算 监控 安全
产品评测|从数据标准到实时监控,深度解析Dataphin如何以智能提效与安全合规驱动企业数据价值释放
Dataphin是阿里巴巴基于OneData方法论打造的一站式数据治理与建设平台,帮助企业实现数据全生命周期管理。本文详细记录了使用Dataphin搭建离线数仓的全流程,包括环境准备、数仓规划、数据引入、处理、周期任务补数据、数据验证与分析等环节。体验中发现其离线管道任务、周期调度、补数据功能便捷高效,但也存在系统稳定性不足、文档更新滞后等问题。建议增强对JSON文件支持、优化资源推荐机制并完善脱敏操作功能,进一步提升用户体验。