04-PDI(Kettle)job案例

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 文章目录04-PDI(Kettle)job案例job简介job创建案例1.创建空作业

04-PDI(Kettle)job案例

job简介

本实验是kettle的作业设计,区别与步骤的并行执行,作业的各作业项具有先后执行顺序,这在处理某些问题的时候具有很大优势。

一个作业包含一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(Hop)和每个作业项的执行结果来决定,和转换一样,作业也包括注释。作业项可以是一个转换,也可是另一个作业项。

job创建案例

1.创建空作业

1、创建空作业

打开kettle,选择主对象树“作业“,新建一个作业,点击保存,保存为”chapter05-1-01空作业.kjb


2、空作业设置

添加一个”start“作业项,查看作业项设置,熟悉作业项功能。添加一个dummy的空作业项

作业作业项可以运行其他作业,这里为了演示,我们需要再创建一个”空作业“,用于演示具体操作。

新建一个作业,保存为”空作业“,添加一个“start”作业项,再添加一个Dummy(空作业)作业项。



2.创建空转换

转换命名为chapter05-1-01空转换,只有dummy一个空转换。本步骤过与简单就不详细描述了。

3创建作业

创建一个新作业,命名为:chapter05-1-01第一个作业.kjb

在spoon界面添加:

添加一个start:启动项,可以完成定时调度等。

添加一个作业项,作业项中选中刚创建过的chapter05-1-01空作业.kjb

添加一个转换:转换中选中刚才创建的空转换chapter05-1-01空转换.ktr



### 执行job

保存上述的chapter05-1-01第一个作业.kjb后,既可以执行该job。

job参数设置

1.创建转换:charpter05-1-02变量设置步骤

1、创建charpter05-1-02变量设置步骤

创建一个转换,分别添加下列步骤,并设置变量,注意:变量设置步骤,在根作业中生效



2.创建作业:charpter05-1-02变量设置

1、作业设计

创建一个新的作业,选中start作业作业的启动项,然后添加设置变量和转换两个作业项。选中后,可以将设置变量和转换设置为并行执行,最后把结果写入日志作业项中,如下图。



2、设置环境变量

在菜单栏-编辑下面设置配置文件

以键值对的方式设置变量,这里可以设置为USER_NAME

选择最后一行,再按下方向键,即可添加



3、设置命名参数

创建一个作业,在空白处,右键单击,选择作业设置(properties),在选择parameters,设置

添加变量TABLE_NAME



4、通过“设置变量”作业项设置

在作业中添加一个“设置变量”作业项,设置变量DB_NAME


5、配置转换作业项

添加一个“转换”作业项,添加刚才的转换。

6、使用变量

这里简单使用写日志,查看当前设置的4各变量。

USER_NAME: ${USER_NAME}
TABLE_NAME: ${TABLE_NAME}
DB_NAME: ${DB_NAME}
DB_HOST: ${DB_HOST}



7.运行


直接运行,就可以看到,获取了四个变量。


设置变量总结


job在可以在如下几个位置设置变量:

  • 转换中的:设置变量 step
  • 作业在的:设置环境变量 在菜单栏-编辑下面设置配置文件
  • 作业中的:设置命名参数
  • 作业在的:“设置变量”作业项

作业监控操作

Kettle支持发送邮件的作业项,在作业执行过程中,可以根据执行结果,将是否成功及时的通过邮件发送给指定的邮箱。

实验步骤

1、添加一个作业,可以执行上一步的变量设置作业(charpter05-1-02变量设置作业),再添加一个发送邮件



2、“作业”作业项用于执行其他作业,如变量设置



3、添加发送邮件作业项,

圈1设置收件人和发件人信息,此处必须为实际可用的邮箱地址,可以使用自己的邮箱,也可以申请其他邮箱。邮箱类型不限,如qq邮箱,网易邮箱,新浪邮箱等。

圈2设置邮箱服务器和验证信息,注意:目前绝大部分邮箱都不允许直接使用密码,而必须使用授权码发送。这里以163邮箱为例,其他邮箱也是相差不大。登录对应邮箱的官网,在设置中可以看到邮箱服务器,以及设置授权码,如下:

圈3设置邮箱内容


圈4设置邮箱附件,比如将日志设置为附件内容。



4、邮箱发送成功之后,可以到对应邮箱网站,查看接收到的邮件



5运行作业时,还可以设置不同级别的日志,用于查看作业执行情况,如果发生错误,也可以通过邮件查找到对应的错误提示信息。


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
7月前
|
资源调度 关系型数据库 数据库
实时计算 Flink版产品使用合集之flink-cdc.sh xx.yaml提交到yarn 发现没有启动task manager的,怎么处理
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
流计算
Flink CDC在运行过程中遇到"Could not upload job files"的问题
Flink CDC在运行过程中遇到"Could not upload job files"的问题
273 1
|
7月前
|
SQL Java 流计算
Flink SQL UDF(用户自定义函数)需要打包成JAR文件并上传到Flink集群中
【1月更文挑战第1天】【1月更文挑战第2篇】Flink SQL UDF(用户自定义函数)需要打包成JAR文件并上传到Flink集群中
324 0
|
7月前
|
存储 监控 调度
【Flink】怎么提交的实时任务,有多少Job Manager?
【4月更文挑战第18天】【Flink】怎么提交的实时任务,有多少Job Manager?
|
7月前
|
消息中间件 Java Kafka
实时计算 Flink版操作报错合集之在运行过程中遇到"Could not upload job files"的问题如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
166 0
|
SQL 数据库
03-PDI(Kettle)导入与导出CDC(下)
文章目录 03-PDI(Kettle)导入与导出CDC 数据的全量、增量、差异备份 基于时间戳的源数据CDC 实验原理 实验步骤 基于触发器的CDC 实验原理
03-PDI(Kettle)导入与导出CDC(下)
|
SQL 关系型数据库 MySQL
03-PDI(Kettle)导入与导出CDC(中)
文章目录 03-PDI(Kettle)导入与导出CDC 数据的全量、增量、差异备份 基于时间戳的源数据CDC 实验原理 实验步骤 基于触发器的CDC 实验原理
03-PDI(Kettle)导入与导出CDC(中)
|
SQL 存储 安全
03-PDI(Kettle)导入与导出CDC(上)
文章目录 03-PDI(Kettle)导入与导出CDC 数据的全量、增量、差异备份 基于时间戳的源数据CDC 实验原理 实验步骤 基于触发器的CDC 实验原理
03-PDI(Kettle)导入与导出CDC(上)
|
资源调度 Ubuntu Unix
05-PDI(Kettle)脚本执行
文章目录 05-PDI(Kettle)脚本执行 pan和kitchen实验背景 pan命令演示
05-PDI(Kettle)脚本执行
|
存储 XML 缓存
01-PDI(Kettle)简介与安装
文章目录 01-PDI(Kettle)简介与安装 PDI(Kettle)简介 Kettle安装 Kettle核心知识点
01-PDI(Kettle)简介与安装