dataworks如何实现自动解析表的血缘关系?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
应用场景 DataWorks支持根据任务节点中的SQL命令,自动解析出表数据的血缘关系,以表数据的血缘关系为基座,为节点自动添加本节点的输出或依赖的上游节点,自动解析高效便捷,适用于绝大部分场景。实现原理下图为自动解析依赖关系的原理。 SELECT一张表,该表将自动解析为本节点依赖的上游。INSERT一张表,该表将自动解析为本节点的输出。如果出现的多个INSERT、SELECT,则会自动解析出多个输出、输入名称。配置方法自动解析通过SQL代码命令自动识别配置,无需您手动配置。自动配置的原则如下表所示。节点类型 代码命令 自动解析 调度依赖配置规则 ODPS节点 当节点代码中出现此类输出命令时,会自动为节点添加一条本节点输出配置内容。 为节点自动添加的本节点输出命名规则为:odps_project_name.table_name。 SELECT 当节点代码中出现此命令时,会自动为节点添加一条依赖的上游节点配置内容。 为节点自动添加的依赖的上游节点命名规则为:project_name.table_name。 非ODPS的SQL节点 当节点代码中出现此类输出命令时,会自动为节点添加一条本节点输出配置内容。 各类型节点自动添加的本节点输出命名规则为: SELECT 当节点代码中出现此命令时,会自动为节点添加一条依赖的上游节点配置内容。 为节点自动添加的依赖的上游节点命名规则为:project_name.table_name。 离线同步节点 离线同步节点不支持自动解析,需要手动添加节点的调度依赖配置。注意事项代码开发要求自动解析完全依据您的任务节点中代码自动识别,因此您在进行数据开发时,建议严格遵循DataWorks的代码开发要求和节点创建要求:代码开发要求:一张表数据由一个节点产出,一个节点只产出一张表。节点创建要求:建议节点名称与产出表的表名称保持一致。调度配置要求:节点的产出表需配置为本节点的输出。不支持自动解析的场景离线节点、AnalyticDB for PostgreSQL节点、AnalyticDB for MySQL节点、EMR节点不支持通过自动解析添加节点的调度依赖。——该回答整理自钉群“DataWorks交流群(答疑@机器人)”
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。