3.DataWorks 调度参数配置|学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习3.DataWorks 调度参数配置

开发者学堂课程【DataWorks 一站式大数据开发治理平台精品课程:3.DataWorks 调度参数配置】与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/81/detail/1240


3.DataWorks 调度参数配置(一)

内容介绍:

一、分类

二、使用示例

三、注意事项

四、常见的使用场景

五、实操演练

内容简介:

调度参数会跟业务时间进行自动替换,这样可以实现独立式数据,数据集成也可以结合调度参数实现增量同步。本次主要介绍调度参数的分类以及使用,调度参数如何进行测试,以及在运行时候经常会遇到的问题。

一、分类

1、参数

系统内置变量,自定义参数。区别在于能否在代码中直接使用。

系统内置变量:${bdp.system.bizdate}、

${bdp.system.cyctime},可以在代码中直接使用,不需要赋值。

(2)自定义参数:${...}、$[…]、系统内置参数、常量。自定义参数是需要在代码中制定一个变量,在参数处给变量赋值。

2、系统参数配置

(1)系统参数取值与格式区别

${bdp.system.bizdate} :取值:业务时间;取值格式: yyyymmdd,取值与自定义参数${yymmdd}一致。

${bdp.system,cyctime} :取值:定时时间;取值格式: yyyymmddhh24miss,取值与自定义参数$yyymmddhh24miss}一致。

(2)系统内置变量可以在代码中直接使用,无需赋值。

在参数替换时的区别是任务的业务时间等于定时时间减一天的,也就是业务时间在定时时间前一天,要注意的就是系统内置变量可以在代码中直接使用,不需要在右侧的参数赋值。

(3)以下是三类节点的使用方式,第一个是 shell,第二个是 pyodps 第三个是odps sql。

image.png也是一样的,在代码中直接使用就可以。

3、自定义参数${…}

获取加减周期

方法

后N年

${yyyy+N}

前N年

${yyyy-N}

后N月

${yyyymm+N}

前N月

${yyyymm-N}

后N周

${yyyymmdd+ 7*N}

前N周

${yyyymmdd-7*N}

后N天

${yyyymmdd+N}

前N天

${yyyymmdd-N}

年月日加N天

${yyyymmdd+N}

年月日减N天

${yyyymmdd-N}

( yyyy )加N年

${yyyy+N}n年

( yyyy )减N年

${yyyy-N}年

(yy )加N年

${yy+ N}年

(yy)减N年

${yy-N}年

月份加N月

${mm+N}

月份减N月

${mm-N}

取当天业务时间

${yyyy-mm-dd}

如果只取月份,需要用大括号的格式取,格式支持修改,比如在年月日中间加一个横杠。

4、自定义参数$[…]

获取加减周期

方法

后N年

$[add_ _monthslyyyymmdd,12*N)]

前N年

$[add_ months(yyyymmdd, 12*N)]

后N月

$[add_ _months(yyyymmdd,N)]

前N月

$[add_ monthsyyymmdd,-N)]

后N周

$[oyyymmdd+7*N]

前N周

$[yyyymmdd-7*N]

后N天

$[yyyymmdd+N]

前N天

$yyyymmdd-N]

后N小时

$[hh24miss +N/24]

前N小时

$[hh24miss-N/24]

后N分钟

$[hh24miss + N/24/60]

前N分钟

$[hh24miss-N/24/60]

当前小时

$[hh24]

当前分钟

$[mi]

定时时间

$[yyyy-mm-dd]

获取加减周期

方法

后N年

$[add_ _monthslyyyymmdd,12*N)]

前N年

$[add_ months(yyyymmdd, 12*N)]

后N月

$[add_ _months(yyyymmdd,N)]

前N月

$[add_ monthsyyymmdd,-N)]

后N周

$[oyyymmdd+7*N]

前N周

$[yyyymmdd-7*N]

后N天

$[yyyymmdd+N]

前N天

$yyyymmdd-N]

后N小时

$[hh24miss +N/24]

前N小时

$[hh24miss-N/24]

后N分钟

$[hh24miss + N/24/60]

前N分钟

$[hh24miss-N/24/60]

当前小时

$[hh24]

当前分钟

$[mi]

定时时间

$[yyyy-mm-dd]

需要注意,中括号的格式可以精确到时分秒,所以取到时分秒精确的时间时候需要用中括号的格式。

5、系统内置参数

参数

描述

$jobid

任务所属的业务流程ID。使用示例: jobid=$jobid。

$nodeid

节点ID.使用示例: nodeid= $nodeid。

$taskid

任务ID ,即节点实例ID。使用示例: taskid= $taskid。

$bizdate

业务日期,格式为yyyymmdd.该参数的应用较为广泛,日常调度中默认运行时间的前一天为业务日期。

$cyctime

任务的定时时间,格式为yyyymmddhh24miss.如果未给天任务定时,则默认定时时间为当天0点整(精确到时分秒,通常小时、分钟级调度任务使用),使用示例: cyctime=$cyctime。

$gmtdate

当前日期,格式为yymmdd。该参数默认为当天日期,补数据时传入的是业务日期+1。

$bizmonth

业务月份,格式为yyyymm.如果业务日期的月份和当前月份一致, $bizmonth=业务日期月份-1。

如果业务日期的月份和当前月份不一致, $bizmonth=业务日期月份。

二、使用示例

image.png

可以看到当前演示用的是 odps sql,在代码中可以直接使用

bdp . system. cyctime和bdp . system. Bizdate,不需要在右侧赋值,自定义参数需要在代码中自定义一个变量名,可以是任何一个字母组合,但是这里要强调的是直接使用 Bizdate 和使用 bdp . system. Bizdate,这两种一个是需要在代码中使用变量名,在参数处复制。假设代码中的变量名是 Bizdate,需要在右侧的参数这里同样赋值 Bizdate,因为Bizdate单独使用时,是不能够在代码之中直接使用的,能够直接使用的只有这两种格式,一个是 bdp . system. cyctime 和bdp . system. Bizdate。

1、ODPS SQL节点使用示例

(1)使用系统变量

系统内置变量可以在代码中直接使用,无需赋值。

(2)使用自定义参数

左侧代码区引用变量,变量名可自定义,右侧参数处赋值,可赋值格式参考官网文档。

  1. 常量参数赋值: var=" abc" key2=1234.
  2. 变量参数赋值: var1= $bizdate一系统内置参数取业务时间
  3. var2=${yyymmdd}一中括号{..}取业务时间。
  4. var3=$[yyymmddhh24:mi:ss]一中括号[..]取定时时间。
  5. 数据集成节点使用示例

(1)使用系统变量

系统内置变量可以在代码中直接使用,无需赋值。

(2)使用自定义参数

左侧代码区引用变量,变量名可自定义,注意bizdate使用时,一定要在右侧参数处赋值。右侧参数处赋值,可赋值格式参考官网文档

  1. 常量参数赋值: "var=abc" 1234。
  2. 变量参数赋值:var1=$bizdate一系统内置参数取业务时间
  3. var2=${yyymmdd}一大括号:{..}取业务时间。
  4. var3= $[yyymmddhh24:miss]一中括号$[…]取定时时间。

数据集成节点的使用和odps sql节点的使用是一致的,因为数据集成节点用的比较多,使用系统变量时直接用使用自定义参数时,需要在右侧参数这里布置,这里数据集成会默认带一个bizdate的变量名,需要注意是变量名是属于自定义参数,它需要在右侧参数处复制的,只有bdp . system. cyctime,格式不需要到参数处复制。

4.SHELL 节点使用示例

(1)使用系统变量

系统内置变量可以在代码中直接使用,无需赋值

(2)使用自定义参数

左侧代码区引用变量,变量名不可自定义,Shell节点中的变量不允许自定义命名,只能以$1,$2.$..命名;注意:参数到达第10个后,请使用${10}的方式声明变。

右侧参数处赋值,可赋值格式参考官网文档,

常量参数赋值:"abc" 1234,变量参数赋值:

  1. $bizdate系统内置参数取业务时间。
  2. ${yyymmdd} 大括号...取业务时间。
  3. $[yyyymmddhh24:mi:ss] 中括号$[…]取定时时间。

5.PYODPS 节点使用示例

(1)使用系统变量

系统内置变量可以在代码中直接使用,无需赋值

(2)使用自定义参数

左侧代码区引用变量,变量名可自定义,为避免侵入代码,可在全局变量中增加一个名为args的字典对象,调度参数可以在此获取。

右侧参数处赋值,可赋值格式参考官网文档,常量参数赋值: "var=abc" 1234。变量参数赋值:

  1. var1= $bizdate系统内置参数取业务时间
  2. var2= ${yyymmdd}大括号$(..)取业务时间。
  3. var3= $[yyyymmddhh24:miss] 中括号$[..]取定时时间。

参数赋值跟 odps sql 节点是类似的。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
一站式大数据开发治理平台DataWorks初级课程
DataWorks 从 2009 年开始,十ー年里一直支持阿里巴巴集团内部数据中台的建设,2019 年双 11 稳定支撑每日千万级的任务调度。每天阿里巴巴内部有数万名数据和算法工程师正在使用DataWorks,承了阿里巴巴 99%的据业务构建。本课程主要介绍了阿里巴巴大数据技术发展历程与 DataWorks 几大模块的基本能力。 课程目标  通过讲师的详细讲解与实际演示,学员可以一边学习一边进行实际操作,可以深入了解DataWorks各大模块的使用方式和具体功能,让学员对DataWorks数据集成、开发、分析、运维、安全、治理等方面有深刻的了解,加深对阿里云大数据产品体系的理解与认识。 适合人群  企业数据仓库开发人员  大数据平台开发人员  数据分析师  大数据运维人员  对于大数据平台、数据中台产品感兴趣的开发者
相关文章
|
4月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
SQL DataWorks 安全
DataWorks产品使用合集之调度资源组与集成资源内部的实例如何进行共用
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 监控
DataWorks产品使用合集之怎么设置参数获取上个月最后一天
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
数据采集 DataWorks 安全
DataWorks产品使用合集之怎么配置定时调度任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
123 1
|
4月前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之怎么查看表dqc的配置
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之怎么配置跨业务流程的调度依赖
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之怎么使用工作空间参数
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
4月前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之调度任务时怎么指定时间函数格式
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2天前
|
分布式计算 DataWorks 大数据
DataWorks产品体验评测报告
DataWorks产品体验评测报告
28 8
|
4月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决

热门文章

最新文章

  • 1
    DataWorks操作报错合集之DataWorks任务异常 报错: GET_GROUP_SLOT_EXCEPTION 该怎么处理
    112
  • 2
    DataWorks操作报错合集之DataWorksUDF 报错:evaluate for user defined function xxx cannot be loaded from any resources,该怎么处理
    109
  • 3
    DataWorks操作报错合集之在DataWorks中,任务流在调度时间到达时停止运行,是什么原因导致的
    106
  • 4
    DataWorks操作报错合集之DataWorks ODPS数据同步后,timesramp遇到时区问题,解决方法是什么
    95
  • 5
    DataWorks操作报错合集之DataWorks配置参数在开发环境进行调度,参数解析不出来,收到了 "Table does not exist" 的错误,该怎么处理
    97
  • 6
    DataWorks操作报错合集之DataWorks中udf开发完后,本地和在MaxCompute的工作区可以执行函数查询,但是在datawork里报错FAILED: ODPS-0130071:[2,5],是什么原因
    111
  • 7
    DataWorks操作报错合集之DataWorks提交失败: 提交节点的源码内容到TSP(代码库)失败:"skynet_packageid is null,该怎么解决
    119
  • 8
    DataWorks操作报错合集之DataWorks在同步mysql时报错Code:[Framework-02],mysql里面有个json类型字段,是什么原因导致的
    154
  • 9
    DataWorks操作报错合集之DataWorks集成实例绑定到同一个vpc下面,也添加了RDS的IP白名单报错:数据源配置有误,请检查,该怎么处理
    88
  • 10
    DataWorks操作报错合集之在 DataWorks 中运行了一个 Hologres 表的任务并完成了执行,但是在 Hologres 表中没有看到数据,该怎么解决
    126