大数据 ETL 处理工具 Kettle 的核心概念

简介: 上一篇中对 Kettle 进行了简单的介绍,并快速体验了一把 Kettle,完成了「把数据从 CSV 文件复制到 Excel 文件」 HelloWrold 级别的功能。而在实际工作中,可以使用 Kettle 的图形化的方式定义复杂的 ETL 程序和工作流,如下图就是通过一系列的转换(Transformation) 完成一个作业(Job)流程。

上一篇中对 Kettle 进行了简单的介绍,并快速体验了一把 Kettle,完成了「把数据从 CSV 文件复制到 Excel 文件」 HelloWrold 级别的功能。

而在实际工作中,可以使用 Kettle 的图形化的方式定义复杂的 ETL 程序和工作流,如下图就是通过一系列的转换(Transformation) 完成一个作业(Job)流程。

image-20210707143745802Kettle 核心概念


image-20210708004806905

转换


转换(Transaformation)是 ETL 中最主要的部分,它处理抽取、转换、加载各种对数据行的操作。转换包含一个或多个步骤(Step),如上图中的「CSV 文件输入」、「Excel输出」步骤,还包括过滤数据行、数据清洗、数据去重或将数据加载到数据库等等。转换里的步骤通过跳(hop)来进行连接,跳定义一个单向通道,允许数据从一个步骤向另一个步骤流动。

步骤(Step)


image-20210708010417687

Kettle 里面的,Step 步骤是转换里的基本的组成部分,上篇快速体验的案例中就存在两个步骤,「CSV文件输入」和「Excel输出」,一个步骤有如下几个关键特性:

  • 步骤需要有一个名字,这个名字在转换范围内唯一。
  • 每个步骤都会读、写数据行(唯一例外是「生成记录」步骤,该步骤只写数据)。
  • 步骤将数据写到与之相连的一个或多个输出跳,再传送到跳的另一端的步骤。
  • 大多数的步骤都可以有多个输出跳,当有多个输出时,会弹出如下图所示的警告进行选择分发还是复制。一个步骤的数据发送可以被设置为分发复制,分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。
    image-20210708010916460

image-20210708011405544

跳(Hop)


image-20210708011632619

Kettle 里面的,跳(Hop),跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路,如上图。在 Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动, 跳是两个步骤之间的被称之为行集的数据行缓存(行集的大小可以在转换的设置里定义,如下图)。当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间;当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。

行集设置

数据行


在 Kettle 里,数据的单位是行,数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。

  • String:字符类型数据
  • Number:双精度浮点数
  • Integer:带符号长整型(64位)
  • BigNumber:任意精度数据
  • Date:带毫秒精度的日期时间值
  • Boolean:取值为 true 和 false 的布尔值
  • Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据

image-20210708013817323

同时,每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。通常包含下面一些信息:

  • 名称:行里的字段名应用是唯一的
  • 数据类型:字段的数据类型
  • 格式:数据显示的方式,如 Integer 的#、0.00
  • 长度:字符串的长度或者 BigNumber 类型的长度
  • 精度:BigNumber 数据类型的十进制精度
  • 货币符号:¥
  • 小数点符号:十进制数据的小数点格式
  • 分组符号:数值类型数据的分组符号

步骤是并行的


这种基于行集缓存的规则(前面 「跳(Hop)」节提到),允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理(设置合理的行集大小)。在数据仓库建设过程中,经常要处理大量数据,所以这种并发低消耗内存的方式也是 ETL 工具的核心需求。

对于 Kettle 的转换,所有步骤都以并发方式执行,即:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输入跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。

总结


  • Kettle 通过一系列的转换(Transformation) 完成一个作业(Job)流程
  • 通过了解 Kettle 的核心概念,得知 Kettle 是通过「跳(Hop)」将数据流从一个步骤到另一个步骤的移动,每个步骤都是由一个独立的线程运行,这样提高并发程度,但相比 Hadoop 生态移动计算模型更加昂贵
  • Kettle 本身由 Java 开发,需要配置合理的 JVM 参数
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
11月前
|
数据采集 SQL 监控
ETL还是ELT,大数据处理怎么选更靠谱?
在数据处理中,ETL(抽取、转换、加载)与ELT(抽取、加载、转换)是两种核心流程。ETL强调在数据入库前完成清洗和转换,适合质量要求高、转换复杂的场景;而ELT则先将原始数据快速入库,再利用现代数仓的计算能力进行转换,更适合大数据和实时分析需求。选择哪种方式,需根据数据量、转换复杂度、系统资源及业务需求综合判断。
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
610 85
|
11月前
|
SQL 人工智能 分布式计算
拥抱数据洪流:ODPS,从工具到智能基石的认知跃迁
ODPS正从计算工具进化为智能基石,重塑数据价值链条。它不仅是效率引擎,更是决策资产、信任桥梁与预见系统。其创新架构支持存算分离、AI融合计算与隐私保护,助力企业迎接AI革命。未来,ODPS将推动绿色智能,成为组织数字化转型的核心支撑平台。
311 3
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
300 1
|
分布式计算 大数据 流计算
玩转数据:初学者的大数据处理工具指南
玩转数据:初学者的大数据处理工具指南
479 14
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
|
存储 人工智能 算法
为什么局域网协作工具是大数据时代的必需品?
本文深入解析了局域网文档协同编辑的技术原理与优势,涵盖分布式系统架构、实时同步技术、操作变换及冲突自由的副本数据类型等核心概念。同时,探讨了其在信息安全要求高的组织、远程与现场混合团队、教育与科研团队等场景的应用,以及国内外技术方案对比和市场未来趋势。
|
9月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
597 14
|
11月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
371 4
|
10月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
881 0