kettle工具的设计模块

简介:

 本博客,是立足于kettle工具的设计模块的概念介绍

 

1、转换

    转换(transformation)是ETL解决方案中最主要的部分,它处理(抽取、转换、加载各阶段)各种对数据行的操作。转换包括一个或多个步骤(step),如读取文件、过滤输出行、数据清洗或将数据加载到数据库。

 

   转换里的步骤通过跳(hop)来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。数据流也叫作记录流。

 

 

 

  转换包括步骤、跳、注释、并行、数据行、数据转换和其他转换。

 

  1.1 注释

 注释是一个小的文本框,可以放在转换流程图的任何位置,注释的主要目的是使转换文档化。

 

   1.2 步骤

   步骤是转换的基本组成部分。它是以图标的方式来图形化展现。

  • 步骤需要有一个名字,这个名字在转换范围内唯一。
  • 每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)
  • 步骤将数据写到与之相连的一个或多个输出跳(outgoing hops),再传送到跳的另一端的步骤。对另一端步骤来说这个跳就是一个输入跳(incoming hops),步骤通过输入跳接收数据 
  • 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为轮流发送和复制发送。轮流发送是将数据行依次发给每一个输出跳(round robin),复制发送是将全部数据行发送给所有输出跳。
  • 在运行转换时,一个线程运行一个步骤和步骤的多份拷贝,所有步骤的线程几乎同时运行,数据行连续地流过步骤之间的跳。

 

 

   1.3 跳

  跳(hop)就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路。跳实际上是两个步骤之间的被称为行集(row set)的数据行缓存(行集的大小可以在转换的设置里定义)。当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。

   注意: 当创建新跳的时候,需要记住跳在转换里不能循环。因为在转换里每个步骤都依赖前一个步骤获取字段值。

 

 

 

   1.4 并行

   跳的这种基于行集缓存的规则允许每个步骤都由一个独立的线程运行,这样并发程序最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种并发低耗内存的方式也是ETL工具的核心需求。

   对于Kettle,不可能定义一个执行顺序,不可能也没有必要确定一个起点和终点。因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。也就是说,从功能的角度来看,转换也有明确的起点和终点。

 

   1.5 数据行

   数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包括下面几种数据类型。

 

   1.6 数据转换

   1.7 其他转换

 

 

 

 

2、作业

   大多数ETL项目都需要完成各种各样的维护工作。例如,当运行中发生错误,要做哪些操作;如何传送文件;验证数据库表是否存在等。而且这些操作要按照一定顺序完成 。因为转换以并行方式执行,就需要一个可以串行执行的作业来处理这些操作。

  一个作业包括一个或多个作业项,这些作业项以某种顺序来执行。作业执行顺序由作业项之间的跳(job hop)和每个作业项的执行结果来决定。

 

 

 

 

 

3、转换或作业的元数据

   。。

 

 

4、数据库连接

   。。

 

5、工具

   。。

 

6、资源库

   。。

 

7、虚拟文件系统

   。。



本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/6907926.html,如需转载请自行联系原作者

相关文章
|
8月前
kettle开发篇-空操作
kettle开发篇-空操作
143 0
|
8月前
|
Oracle 前端开发 关系型数据库
kettle开发篇-更新
kettle开发篇-更新
218 1
|
5月前
|
SQL 存储 数据管理
掌握SQL Server Integration Services (SSIS)精髓:从零开始构建自动化数据提取、转换与加载(ETL)流程,实现高效数据迁移与集成——轻松上手SSIS打造企业级数据管理利器
【8月更文挑战第31天】SQL Server Integration Services (SSIS) 是 Microsoft 提供的企业级数据集成平台,用于高效完成数据提取、转换和加载(ETL)任务。本文通过简单示例介绍 SSIS 的基本使用方法,包括创建数据包、配置数据源与目标以及自动化执行流程。首先确保安装了 SQL Server Data Tools (SSDT),然后在 Visual Studio 中创建新的 SSIS 项目,通过添加控制流和数据流组件,实现从 CSV 文件到 SQL Server 数据库的数据迁移。
376 0
|
8月前
|
SQL 前端开发 JavaScript
kettle开发-超好用自定义数据处理组件
kettle开发-超好用自定义数据处理组件
226 0
|
SQL 数据采集 数据库连接
kettle基础概念理解
kettle基础概念理解
143 0
|
SQL Oracle 关系型数据库
「集成架构」2020年最好的15个ETL工具(第二部)
「集成架构」2020年最好的15个ETL工具(第二部)
|
SQL 关系型数据库 MySQL
电商项目之 Sqoop 脚本编写数据导入|学习笔记
快速学习电商项目之 Sqoop 脚本编写数据导入
电商项目之 Sqoop 脚本编写数据导入|学习笔记
|
数据库
无事来学学--Kettle中查询,流程,连接组件的使用(下)
查询组件 查询是转换里面的第七个分类。查询是用来查询数据源里的数据并合并到主数据流中。
446 0
|
数据库连接 数据库
无事来学学--Kettle中查询,流程,连接组件的使用(上)
查询组件 查询是转换里面的第七个分类。查询是用来查询数据源里的数据并合并到主数据流中。
570 0
无事来学学--Kettle中转换组件使用(下)
如果想具体看看转换的概念和特点可以点击之前的博客
194 0