Kettle工具使用及总结

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
简介: kettle主要用于数据清洗,即常见ETL工具,拥有图形化界面且免费的优点。

Kettle工具使用及总结


一、kettle安装及报错:

kettle主要用于数据清洗,即常见ETL工具,拥有图形化界面且免费的优点。其下载包直接解压打开就能用,遇到的问题:


1.连接MySQL报错:

image.png


①报错:


Driver class 'org.gjt.mm.mysql.Driver' could not be found, make sure the 'MySQL' driver (jar file) is installed.
org.gjt.mm.mysql.Driver


原因:没有识别到连接数据库的驱动jar包


解决方法:


将驱动jar包复制粘贴到data-integration\lib文件下(data-integration为kettle安装目录);重启spoon。


操作完成之后反复尝试还是报相同的错,识别不到,则说明你的kettle版本与你的驱动版本不容,无法识别。(例如我的kettle7.0无法识别mysql-connector-java-8.0.19.jar)。那么只有换版本或者换连接的数据库(这里我放弃连接MySQL,转为连接sqlserver)


②报错:


Error connecting to database: (using class org.gjt.mm.mysql.Driver)
Unknown initial character set index '255' received from server. Initial client character set can be forced via the 'characterEncoding' property.

原因:你导入的jar包被kettle识别,但是它与你本地MySQL版本不容


解决方法:换连接驱动的jar包(因为驱动版本是跟数据库版本一致的,间接说明你的kettle与MySQL版本不容)


连接SQL server:

image.png

连接成功:

image.png

操作:(本案例演示csv文件拆分字段转存sqlserver数据库)


二、kettle实例

(1)建立作业,连接数据库

887de2596e26f65d55d59fcc113710dc_20210503001311238.png

(2)执行sql脚本(对数据库表初始化操作)


下面的sql脚本在sqlserver运行不出错,但在kettle就会报错(不知道为什么,所以现在我sql脚本没有写,不过想想确实还不如直接去数据库客户端里建表方便)

IF NOT EXISTS (select * from dbo.sysobjects where xtype='U' and Name = 'kettle_test')
BEGIN
CREATE TABLE kettle_test
(
kind varchar(255),
time varchar(255),
processingDepartment varchar(255),
content varchar(255)
);


END

7adb46de47ecc95c4c22a9760eaf88b1_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


执行结果出错(如下图),后来我把sql语句删了,动手在数据库里建的表。

a302d044c32cd67b01f337d88bcc4853_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



(3)在转换1中新建一个转换;完成输入csv文件,字段切分,输出到表的操作

3008294666a0f53f86430b00410bf444_20210503001054859.png


(这里,观察左菜单栏就会发现它的数据清洗功能)

3430f7e9e716818b635e09d2df73ea8a_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



①给转换建立数据库连接;


2e8261b5a94ddc63b8b219ebdcfc745e_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


②进行csv文件输入:


c8e44e836688d82fec4d223a4159bd00_20210503001054845.png


CSV输入设置

ef15a22b30b4aec2c48931570fb3fc84_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


拆分字段:

9d3ae9e9a9416d42f9387017ad881da8_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



Excel输入设置

从输入组件中拖入EXCEL输入,点击设置:


(1)在弹出框中选择“表格类型”为“Excel 2007 XLSX (Apache POI)”;


(2)点击“文件或目录“后的“浏览”选择需要导入的Excel表格,点击“增加”添加至选中文件列表中;

3af547cece70e3d823b84b18e4efd725_70.png



(3)单击“工作表”,在工作表页面选择“获取工作表名称”,选择相应的“可用项目”添加至“你的选择”中;

9033da5708fee076f02a9748e3762075_70.png



(4)单击“字段”,在字段页面点击“获取来自头部数据的字段”,(所以Excel表格最好带有列字段列名),并可以对获取的数据字段类型进行调整,可以点击“预览记录”查看数据;


4be417182ed12722f9c87d8fc58a1b0f_70.png



表输出设置

展开"输入"列表将"表输出"模块拖入右侧空白区域;

57147aee6010afd4c6e80f0b5225b961_70.png

64fe4dc5fe5cd0c8fbe131dc121e7ab9_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



⑤点击文件,保存


⑥返回作业,为转换1设置:

352405a3cd2fbc107e367d5101dd2154_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



(4)保存,执行

1de3dc483750c4ead22d9c384ec1514e_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
7月前
|
SQL
kettle开发篇-参数
kettle开发篇-参数
158 0
|
7月前
kettle开发篇-空操作
kettle开发篇-空操作
136 0
|
1月前
|
数据采集 监控 数据可视化
Kettle的特点是什么?如何使用?
【10月更文挑战第24天】Kettle的特点是什么?如何使用?
117 2
|
7月前
|
分布式计算 Hadoop 关系型数据库
Sqoop入门指南:安装和配置
Sqoop入门指南:安装和配置
|
数据采集 Java 关系型数据库
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
537 0
|
Oracle Java 关系型数据库
Kettle 常见问题解决方案
JDK版本大于1.8时非常不稳定,表现在无法新建连接DB数据库,会出现无响应。
An工具介绍之3D工具
An工具介绍之3D工具
543 0
|
数据采集 Oracle 关系型数据库
Kettle入门(一)
Kettle入门(一)
427 0
Kettle入门(一)
|
XML Java API
Kettle资源库运行方式(二)
Kettle资源库运行方式(二)
584 0
Kettle资源库运行方式(二)
|
网络协议 Shell API
sqoop2系统入门之2汇总:用户指南shell命令【可收藏备查】
sqoop2系统入门之2汇总:用户指南shell命令【可收藏备查】
345 0