大数据 ETL 处理工具 Kettle 完成一个作业任务

简介: 简单一句话,作业流程,即是对转换流程进行调度,也可以嵌套转换流程和作业流程。

什么是作业流程


简单一句话,作业流程,即是对转换流程进行调度,也可以嵌套转换流程和作业流程。

第二篇中介绍了一些核心概念,已经知道什么是转换等概念,第一篇中通过一个 HelloWorld 级别的实践,快速体验了一把「转换」的流程。

一个作业流程必须包含「START」 组件,可以没有「成功」组件,作业流程中可以嵌套转换流程和作业流程,如下图:

作业流程

除了调度转换流程还可以做一些其他的工作,比如文件管理(创建一个目录、创建文件、删除一个文件、复制文件等)、条件判断(检查目录是否为空、检查一个文件是否存在等)、脚本(JavaScript、Shell、SQL)执行、发送邮件等等,如下图:

image-20210713165038894

新建作业流程


场景

将第一篇中的转换「数据从 CSV 文件复制到 Excel 文件」配置到作业流程中进行执行。

新建

新建作业流程与转换流程类似,快捷键是 Command + Option + N。核心组件在 通用 分类下,分别将「Start」、「转换」、「成功」拖拽到右侧工作区,按住 shift + 鼠标左键可以建立步骤间的连接,如下图:

image-20210713171142834

小结:

与转换流程不同的是,除了步骤之间有 连接状态(箭头颜色深浅),还有 连接条件(箭头上的图标,一共三种)。上图的这个作业中包含了所有连接条件:

  • 小锁图标,表示不管上一步骤执行结果如何,都执行下一个步骤
  • 红叉图标,表示只有上一步骤执行出错或者返回FALSE,才执行下一步骤
  • 绿勾图标,表示只有上一步骤执行成功或者返回TRUE,才执行下一步骤

单击连接条件图标可以调整连接条件,START 步骤与下一步骤之间的连接条件不可修改

配置

双击「转换」,可以设置作业项名称(推荐设置一个见名知意的名称),点击「浏览」选择转换路径,其他先保持默认,如下图:

image-20210713171550083

执行

点击「执行」按钮,开始执行作业,并输出日志信息,如下图:

image-20210713171826845


定时调度


  • 「START」组件标识着工作流的开始,也是配置定时任务的地方,右键「START」组件选择「编辑作业入口」

image-20210713173845856

需要一直保持Spoon处于启动状态,一旦Spoon窗口被误关闭,定时任务就无效了,所以一般不使用 Kettle 自带的这个调度器

  • crontab 进行调度,在实际工作中使用了这种方式,示例如下
25 4,23 * * 1-6 sh /Users/Yezhiwei/Documents/apps/data-integration/kitchen.sh -file=/usr/schedule/JobFiles/main.kjb --level=minimal>>/usr/schedule/JobFiles/main/1.log


结语


最后制作一个小视频,完成作业整个流程。

,时长01:36


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
数据采集 SQL 监控
ETL还是ELT,大数据处理怎么选更靠谱?
在数据处理中,ETL(抽取、转换、加载)与ELT(抽取、加载、转换)是两种核心流程。ETL强调在数据入库前完成清洗和转换,适合质量要求高、转换复杂的场景;而ELT则先将原始数据快速入库,再利用现代数仓的计算能力进行转换,更适合大数据和实时分析需求。选择哪种方式,需根据数据量、转换复杂度、系统资源及业务需求综合判断。
|
8月前
|
SQL 人工智能 分布式计算
拥抱数据洪流:ODPS,从工具到智能基石的认知跃迁
ODPS正从计算工具进化为智能基石,重塑数据价值链条。它不仅是效率引擎,更是决策资产、信任桥梁与预见系统。其创新架构支持存算分离、AI融合计算与隐私保护,助力企业迎接AI革命。未来,ODPS将推动绿色智能,成为组织数字化转型的核心支撑平台。
242 3
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
852 4
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
530 85
|
分布式计算 大数据 Java
springboot项目集成大数据第三方dolphinscheduler调度器 执行/停止任务
springboot项目集成大数据第三方dolphinscheduler调度器 执行/停止任务
213 0
|
9月前
|
机器学习/深度学习 存储 算法
Java 大视界 -- Java 大数据在智能农业无人机植保作业路径规划与药效评估中的应用(165)
本文围绕 Java 大数据在智能农业无人机植保作业路径规划与药效评估中的应用展开,剖析作业现状与挑战,阐述技术原理及应用方法,结合案例与代码,给出具有实操性的解决方案。
Java 大视界 -- Java 大数据在智能农业无人机植保作业路径规划与药效评估中的应用(165)
|
10月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
228 1
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
628 0
|
分布式计算 大数据 流计算
玩转数据:初学者的大数据处理工具指南
玩转数据:初学者的大数据处理工具指南
407 14
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。