Dataworks详细介绍下小时依赖小时实例的运行过程是什么?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在阿里云DataWorks中,小时依赖小时实例是一种数据集成的方式,用于实现数据的持续抽取和同步。其运行过程如下:
配置小时依赖:在DataWorks中,用户可以配置小时依赖任务,指定需要抽取的数据源和目标数据源,定义数据抽取的规则和频率等。
创建小时实例:在小时依赖任务配置完成后,DataWorks会根据用户的配置自动创建小时实例。小时实例是一个虚拟的运行环境,用于执行小时依赖任务。
确定数据范围:在小时实例中,DataWorks会根据用户配置的数据抽取规则,确定需要抽取的数据范围。
抽取数据:在确定了数据范围后,小时实例会启动相应的数据抽取作业,从源数据源中抽取数据,并将数据写入目标数据源。
完成抽取:在数据抽取作业完成后,小时实例会自动关闭,所有的临时数据也会被清理掉。
在DataWorks中,小时依赖小时实例是一种任务调度和依赖配置方式。它的运行过程如下:
配置小时依赖小时实例:在DataWorks中,你可以将任务节点之间的依赖关系设置为小时级别的依赖。这意味着一个任务节点必须在前一个任务节点成功实例的同一小时内才能开始执行。
前置任务节点完成:首先,前置任务节点需要成功完成,并满足设置的成功实例条件。例如,可能需要前置任务节点输出的数据表已经生成,或者前置任务节点的成功条数达到特定阈值等。
调度触发:一旦前置任务节点满足了成功实例条件,DataWorks会根据任务节点的调度周期进行调度触发。对于小时依赖小时实例,任务节点将在每个小时的起始时刻被触发。
任务节点执行:当任务节点被触发后,在指定的调度时间点,任务节点开始执行。它可能是一个数据同步任务、SQL任务、MaxCompute任务等,具体类型取决于你在DataWorks中创建的任务节点。
成功实例标记:如果任务节点成功完成了其工作,DataWorks将标记该任务节点为成功实例。这表示该任务节点在此小时内已成功执行。
后续任务节点触发:一旦任务节点被标记为成功实例,后续依赖于该任务节点的任务节点将在下一个小时的起始时刻被触发。这样形成了任务节点间的连续执行流程。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。