在DataWorks中,一个周期指的是调度周期,也就是数据集成任务的执行周期。数据集成任务可以按照分钟、小时、天、周、月等不同的周期进行调度。
依赖上一周期指的是,当前周期的任务执行是否依赖上一周期的任务执行结果。例如,一个周期为天的任务,在设置为“依赖上一周期”后,会在每天执行时,先检查上一天的任务是否执行成功,如果上一天的任务执行失败,则本次任务不会被执行。
依赖上一周期可以保证任务的执行顺序和数据的准确性,特别是对于增量同步等需要保证数据连续性的任务非常重要。但是需要注意,依赖上一周期会增加任务执行的耗时和复杂度,因此在实际使用中需要根据具体情况进行选择。
【跨周期依赖】
背景描述:节点依赖可以分为同周期依赖和跨周期依赖,即依赖上游节点上一周期实例还是当天的实例。
同周期依赖在运维中心展示为实线,跨周期依赖在运维中心展示为虚线,自动解析默认解析的是同周期依赖。
做了跨周期依赖,记得将同周期依赖去掉,否则会同时依赖该节点昨天和今天的实例。
如果不清楚如何去除依赖回复机器人:删除输入 【三种跨周期依赖】
1.一层子节点
节点依赖关系:依赖当前节点的下游。例如节点A存在B、C、D三个下游节点,依赖一层子节点是指节点A依赖B、C、D三个节点的上一周期,即本次节点是否运行取决于上一周期下游节点是否运行成功。
业务场景:本次(本周期)节点的运行,依赖下游节点上一周期对本节点上一周期结果表(即本节点输出表)的数据清洗结果是否成功(如果需要查看下游节点对当前节点数据清洗结果是否符合预期,可以对下游节点产出的结果表配置数据质量规则)。
2.本节点
节点依赖关系:跨周期自依赖(依赖当前节点的上一周期),即本次节点是否运行取决于上一周期本节点是否运行成功。
业务场景:本周期节点运行依赖上一周期该节点业务数据的产出情况。(如果需要查看节点数据清洗结果是否符合预期,可以对节点产出的结果表配置数据质量监控规则。)
3.自定义:
手动输入需要依赖的其他节点,此处需要输入节点ID。如果存在多个节点,需用逗号(,)分隔,例如12345,23456。
节点依赖关系:手动输入需要依赖的节点,本周期节点运行取决于自定义依赖的节点上一周期该是否运行成功。
业务场景:业务逻辑上需要依赖其他业务的数据正常产出,但本节点中没有操作该业务数据。 说明: 依赖上一周期和依赖本周期的区别:在运维中心中查看节点依赖关系时,所有跨周期依赖的节点都会以虚线的形式展示。
注意:下线节点时需要删除节点依赖关系,需要下线的依赖关系包括同周期依赖及跨周期依赖。 ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
"依赖上一周期"是指在任务或作业的调度过程中,当前周期的执行需要依赖于上一个周期的执行结果。例如,对于数据仓库中的某个ETL任务来说,如果上一个周期的执行没有成功,那么当前周期的执行就无法继续,直到上一个周期的问题得到解决。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。