ETL工具 kettle

简介: Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettl

Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。(引用百度百科)

1、Kettle的下载与安装(在本文中使用的kettle版本为6.1.0.1-196)

  kettle的最新下载地址:http://community.pentaho.com/projects/data-integration/

2、打开kettle。

  首先解压下载下来的压缩包如:pdi-ce-6.1.0.1-196.zip

  然后打开Spoon.bat,如图所示:

  

  打开后请耐心等待一会儿时间。

3、建立转换。

  在文件->新建装换。

  新建转换后在左边的主对象树中建立DB连接用以连接数据库。如图所示:

  

  建立数据库连接的过程与其他数据库管理软件连接数据库类似。

  注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettle的lib文件夹。

4、简单的数据表插入\更新

  (1)新建表插入

  在左边的面板中选择“核心对象”,在核心对象里面选择“输入->表输入”,用鼠标拖动到右边面板。如图所示:

 

 

 

  双击拖过来的表,可以编辑表输入。

  选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。

 

  (2)通过插入\更新输出到表。

  在左边面板中选择核心对象、选择“输出->插入\更新”如图所示:

 

  编辑插入更新:

  首先:表输入连接插入更新。

    选中表输入,按住shift键,拖向插入更新。

  然后:双击插入更新,编辑它。

 

  到这里基本上,这个转换就要做完了,可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。

5、使用作业控制上面装换执行。

  使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。

  

  双击start可以编辑,可以设置执行时间等等

  点开装换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr

  最后点击运行即可。

 

  到这里,一个简单的通过作业调度的kettle就算做完了。

附录:测试数据表

 

复制代码
 1 -- ----------------------------
 2 DROP TABLE IF EXISTS `student`;
 3 CREATE TABLE `student` (
 4   `userId` int(11) NOT NULL AUTO_INCREMENT,
 5   `userName` varchar(20) DEFAULT NULL,
 6   `userage` int(11) DEFAULT NULL,
 7   `timestamp` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP,
 8   PRIMARY KEY (`userId`)
 9 ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8;
10 
11 -- ----------------------------
12 -- Table structure for student2
13 -- ----------------------------
14 DROP TABLE IF EXISTS `student2`;
15 CREATE TABLE `student2` (
16   `userId` int(11) NOT NULL AUTO_INCREMENT,
17   `userName` varchar(20) DEFAULT NULL,
18   `userage` int(11) DEFAULT NULL,
19   `timestamp` timestamp NOT NULL DEFAULT '0000-00-00 00:00:00' ON UPDATE CURRENT_TIMESTAMP,
20   PRIMARY KEY (`userId`)
21 ) ENGINE=InnoDB AUTO_INCREMENT=6 DEFAULT CHARSET=utf8;
复制代码
目录
相关文章
|
7月前
|
调度
kettle开发篇-写日志
kettle开发篇-写日志
505 0
|
7月前
|
JavaScript 前端开发 Java
kettle开发篇-作业
kettle开发篇-作业
104 0
|
数据采集 SQL 分布式计算
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
1469 0
|
数据采集 SQL 分布式计算
常用的数据集成ETL工具有哪些?
六种常用的数据集成ETL工具
常用的数据集成ETL工具有哪些?
|
数据采集 Java 关系型数据库
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
534 0
|
JSON 数据可视化 关系型数据库
Kettle可视化ETL工具快速入门 1
Kettle可视化ETL工具快速入门
441 0
|
JSON 数据可视化 关系型数据库
Kettle可视化ETL工具快速入门 2
Kettle可视化ETL工具快速入门
246 0
|
数据采集 运维 Ubuntu
使用kettle进行数据清洗
使用kettle进行数据清洗
使用kettle进行数据清洗
|
SQL JavaScript 前端开发
大数据 ETL 处理工具 Kettle 完成一个作业任务
简单一句话,作业流程,即是对转换流程进行调度,也可以嵌套转换流程和作业流程。
|
XML SQL JSON
大数据 ETL 处理工具 Kettle 常用输入输出
相比现在流行大数据技术,你可能觉得 Kettle 的使用场景太少了,或者没有必要使用这么个玩意儿,查看了下 github kettle 发现最近也有一些更新,另外,对于没有编程经验的数据使用人员,使用非常简单的 Kettle,通过图形界面设计实现做什么业务,无需写代码去实现,就可以做一些实验,比如:抓取网站上的股票数据、外汇信息等等。 Kettle 支持很多种输入和输出格式,包括文本文件,数据表,以及数据库引擎。总之,Kettle 强大的输入、输出、转换功能让你非常方便的操作数据。