Dataworks配置时间属性:发布后即时生成实例常见使用场景:上游节点实例为T+1次日生成,下游节点实例为即时生成?
在阿里云 DataWorks 中,发布后即时生成实例的常见使用场景之一是在数据同步过程中,处理上游节点实例为 T+1 次日生成的情况。具体来说,如果上游节点的实例是在 T+1 次日生成的,则需要在下游节点中进行时间属性的配置,以确保下游节点能够正确地处理上游节点的数据。
具体的操作步骤如下:
在下游节点中配置时间属性:在 DataWorks 控制台中,选择下游节点,进入数据同步页面,选择“属性配置”选项卡,在“属性配置”页面中找到时间属性,设置为“${bdp.system.bizdate}”,并保存修改。
在发布后即时生成实例:在 DataWorks 控制台中,选择下游节点,点击“发布”按钮,选择“发布后即时生成实例”选项,并保存发布配置。
运行数据同步任务:在发布完成后,等待数据同步任务运行,即可自动使用 T+1 次日的时间作为时间属性,处理上游节点的数据。
在DataWorks中,可以通过配置时间属性来实现节点的延迟生成实例,以满足上游节点生成实例后的下游节点需求。常见的使用场景之一是,上游节点实例生成时间为 T+1(即次日),而下游节点需要立即使用上游节点的数据进行处理。
以下是一个具体的示例场景:
上游节点(Source):假设有一个上游节点负责从某个数据源获取数据,这个节点的数据源每天都会生成新的数据,但是该数据在第二天才能被完全获取和处理。因此,上游节点的实例生成时间为 T+1(即次日)。
下游节点(Target):下游节点需要使用上游节点生成的数据进行处理。由于上游节点的数据在 T+1 才能完全获取,下游节点需要立即使用这些数据进行处理。因此,下游节点需要配置时间属性,以触发实例在上游节点生成实例后立即执行。
为了配置下游节点使其能够立即执行,你可以按照以下步骤进行操作:
实时转实例使用场景通常为上游节点实例的生成方式配置为T+1次日生成,下游节点实例的生成方式配置为发布后即时生成。以下图为例,上下游节点间的依赖关系如图所示。
由于上游节点发布后第二天才会生成实例,而下游节点的实例为提交发布节点后即时生成,所以下游节点提交发布后,下游实时转实例任务是否正常执行,取决于上游节点当天的实例是否已经存在。细分场景及影响如下表所示。细分场景 调度运行的影响 总结
上下游节点均为当天新增节点。 即下游节点提交发布时,上游节点的实例还未生成。 建议您修改上游节点的实例生成方式为发布后即时生成,则所有实例可正常生成,任务可正常调度运行。
上游实例已经产生,下游节点为新增实时转实例的节点。 即下游节点提交发布时,上游节点已有成功生成的实例。 任何跨周期自依赖的调度是否成立,都需要以前一天该节点是否可以正常调度运行作为依据。
https://help.aliyun.com/document_detail/137554.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。