使用DataWorks调度DLA循环任务

2019-04-12 3932

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DataWorks是阿里云上的一款热门产品，可以为用户提供大数据开发调度服务。它支持了Data Lake Analytics（后文简称DLA）以后，DLA用户可以通过它进行定时任务调度，非常方便。本文将主要介绍如何使用DataWorks调度DLA的循环任务。

DataWorks是阿里云上的一款热门产品，可以为用户提供大数据开发调度服务。它支持了Data Lake Analytics（后文简称DLA）以后，DLA用户可以通过它进行定时任务调度，非常方便。本文将主要介绍如何使用DataWorks调度DLA的循环任务。

场景

使用DLA对历史数据按天做清洗。数据清洗的SQL是固定的，只是每次执行的时候需要传入不同的日期。

对于这个场景，我们需要：

部署一个赋值节点。该节点负责输出日期值，并作为下游循环节点的输入。
部署一个循环节点。该节点包含用来做数据清洗的一个或者一组SQL，其中关于日期取值是一个变量。每次循环输入值由赋值节点提供。

DataWorks操作

步骤一：新建业务流程和节点

登录DataWorks的控制台，并创建一个业务流程或使用原有的业务流程。

在新建的业务流程下，创建一个赋值节点和一个循环节点。

步骤二：配置赋值节点

打开节点“日期集合”的编辑页面。这里我们选择SHELL语言，将要执行的日期值写在一个数组里。

打开节点“日期集合”的调度配置页面。
在这里需要给赋值节点设置一个上游节点，这里可以设置为当前工作空间的root。比如我的工作空间名字叫jinluo_poc，则该节点为jinluo_poc_root。

步骤三：配置循环节点

双击循环节点进入编辑页面。可以看到三个节点，分别是start, sql和end。这里我们需要新建一个DLA的任务节点，并把sql替换为一个DLA的任务节点。

在调度配置页面设置依赖关系和节点上下文。上游节点设置为赋值节点“日期集合”，本节点的输入为赋值节点的输出。

设置DLA_SQL节点

选择一个DLA的数据源，并填写SQL。

这里面的pure_date的值是从赋值节点读入的。每次读取赋值节点的输出结果数组中的一个值。写法是固定的，如下所示。

h.`pure_date`=${dag.input[${dag.offset}]}

dag.offset，这个是DataWorks系统的保留变量，代表每一次循环次数相对于第一次的偏移量。即第一次循环中offset为0、第二次为1、第三次为2…第n次为n-1
dag.input，这个变量是用户配置的循环节点的上下文依赖。循环节点内部节点如果需要引用这个上下文依赖的值，可以直接用${dag.${ctxKey}}的方式来引用，因为上文中配置的上下文依赖key为input，因此可以使用${dag.input}来引用这个值
${dag.input[${dag.offset}]}：节点数据集初始化的输出是一个表格，DataWorks是可以用偏移量的方式来获取表格数据的某一行的。由于每次循环中dag.offset的值是从0开始递增的，所以最后echo出来的数据应该就是${dag.input[0]}、${dag.input[1]}以此类推达到遍历数据集的效果

设置end节点

该节点的作用是控制循环的结束。
end节点的结束条件：是把dag.loopTimes进行比较，小于则输出True继续循环；不小于则输出False退出循环。dag.input.length变量，标识上下文参数input数组的行数。是系统自动根据节点配置的上下文下发的变量。

if ${dag.loopTimes} < ${dag.input.length}:
 print True
else:
 print False

在调度配置页面，需要设置上游节点。

设置完成，保存后，可以看到循环节点变更为

步骤四：发布

目前在DataWorks的开发界面暂不支持循环节点的运行，需要提交后在运维中心测试运行。
分别点击 “日期集合”和“数据清洗SQL”页面上的“提交按钮”进行提交。

在提交循环节点时，注意要勾选上所有的节点。

步骤五：运行

进入运维中心页面，在周期任务的列表里面可以看到我们刚刚提交的两个作业。

右键“日期集合” -> 补数据 -> 当前节点及下游节点可以手动执行该组任务。

提交后可以看到每个节点的运行状态。

参考

DataWorks官方文档：

http://help.aliyun-inc.com/internaldoc/detail/102311.html?spm=a2c1f.8259796.2.25.24fa96d5a5twQO

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

一站式大数据开发治理平台DataWorks初级课程

DataWorks 从 2009 年开始，十ー年里一直支持阿里巴巴集团内部数据中台的建设，2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks，承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。课程目标  通过讲师的详细讲解与实际演示，学员可以一边学习一边进行实际操作，可以深入了解DataWorks各大模块的使用方式和具体功能，让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解，加深对阿里云大数据产品体系的理解与认识。适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者

使用DataWorks调度DLA循环任务

场景

DataWorks操作

步骤一：新建业务流程和节点

步骤二：配置赋值节点

步骤三：配置循环节点

设置DLA_SQL节点

设置end节点

步骤四：发布

步骤五：运行

参考

云原生数据湖 Data Lake Analytics

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

使用DataWorks调度DLA循环任务

场景

DataWorks操作

步骤一：新建业务流程和节点

步骤二：配置赋值节点

步骤三：配置循环节点

设置DLA_SQL节点

设置end节点

步骤四：发布

步骤五：运行

参考

云原生数据湖 Data Lake Analytics

热门文章

最新文章

相关课程

相关电子书

相关实验场景