DataWorks作为阿里云上广受欢迎的大数据开发调度服务,最近加入了对于AnalyticDB PostgreSQL版(原HybridDB for PostgreSQL,简称ADB PG版)的支持,意味着所有ADB PG版的客户可以获得任务开发、任务依赖关系管理、任务调度、任务运维等等全方位强大的能力,进一步增强ADB PG版的ETL能力,今天就给大家介绍一下如何使用DataWorks来调度ADB PG版的脚本任务。
ADB PG数据准备
为了演示如何在DataWorks上调度ADB PG版的任务,我们后面会用到一些测试数据,这里我们用著名的TPCH的测试数据集, 这仅仅是用来测试。数据已经导入ADB PG版,具体导入步骤,可以参考ADB PG版的导入文档。
任务调度其中一个重要的功能是任务之间的依赖,为了演示这个功能,我们这里会在DataWorks里面创建两个ADB PG版任务, 我们的表、任务之间的关系如下图:
任务一: 我们从orders表清洗出已经完成的订单: o_orderstatus = 'F' , 并写入 finished_orders 表
任务二: 再从 finished_orders 表里面找出总价大于10000的订单: o_totalprice > 10000, 并写入 high_value_finished_orders 表
在DataWorks创建ADB PG版任务
在开通 DataWorks+ADB PG版 的调用功能后,我们可以在DataWorks数据开发IDE中创建AADB PG版任务,如下图:
我们把第一个任务命名为: finished_orders
, 点击确定会进入一个SQL编辑的页面,要写ADB PG版 SQL一定要告诉DataWorks我们写的SQL运行在哪个ADB PG版的服务上,这个在DataWorks里面被包装成了"数据源"的概念:
刚进来时候没有数据源,需要点击“新建数据源”
选择“连接串模式”
填写必要的信息后点击“完成”。
DataWorks为了安全的考虑,对可以连接的服务进行了安全控制,因此我们需要把我们要连的ADB PG版的地址+端口加到白名单里面去,这个配置是在DataWorks工作空间的配置里面:
具体配置如下
** 这里需要注意一下,工作空间配置只有工作空间管理员才有权限
做了这么多之后,我们终于可以在编辑页面看到ADB PG版的数据源了,下面我们在 finished_orders
的任务里面填入如下SQL, 并点击执行:
insert into finished_orders
select O_ORDERKEY, O_TOTALPRICE
from orders
where O_ORDERSTATUS = 'F';
如下图
重复上述步骤,我们创建第二个任务: high_value_finished_orders:
insert into high_value_finished_orders
select * from finished_orders
where O_TOTALPRICE > 10000;
配置任务依赖
单个任务单次运行没什么太大意思,任务调度的核心在于多个任务按照指定的依赖关系在指定的时间进行运行,下面我们让: finished_orders
在每天半夜2点开始运行:
high_value_finished_orders
在 finished_orders
成功运行之后再运行:
如果自动解析不到,可以手动指定上游依赖节点
任务发布
任务配置好之后,就可以进行任务的发布、运维了。任务要发布首先必须提交:选择我们刚刚提交的任务,我们就可以发布了:
在发布列表页面可以查看我们刚刚的发布是否成功:
发布成功之后,我们就可以进入任务运维页面查看我们的任务,进行各种运维操作了。