Kettle工具使用及总结

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: kettle主要用于数据清洗,即常见ETL工具,拥有图形化界面且免费的优点。

Kettle工具使用及总结


一、kettle安装及报错:

kettle主要用于数据清洗,即常见ETL工具,拥有图形化界面且免费的优点。其下载包直接解压打开就能用,遇到的问题:


1.连接MySQL报错:

image.png


①报错:


Driver class 'org.gjt.mm.mysql.Driver' could not be found, make sure the 'MySQL' driver (jar file) is installed.
org.gjt.mm.mysql.Driver


原因:没有识别到连接数据库的驱动jar包


解决方法:


将驱动jar包复制粘贴到data-integration\lib文件下(data-integration为kettle安装目录);重启spoon。


操作完成之后反复尝试还是报相同的错,识别不到,则说明你的kettle版本与你的驱动版本不容,无法识别。(例如我的kettle7.0无法识别mysql-connector-java-8.0.19.jar)。那么只有换版本或者换连接的数据库(这里我放弃连接MySQL,转为连接sqlserver)


②报错:


Error connecting to database: (using class org.gjt.mm.mysql.Driver)
Unknown initial character set index '255' received from server. Initial client character set can be forced via the 'characterEncoding' property.

原因:你导入的jar包被kettle识别,但是它与你本地MySQL版本不容


解决方法:换连接驱动的jar包(因为驱动版本是跟数据库版本一致的,间接说明你的kettle与MySQL版本不容)


连接SQL server:

image.png

连接成功:

image.png

操作:(本案例演示csv文件拆分字段转存sqlserver数据库)


二、kettle实例

(1)建立作业,连接数据库

887de2596e26f65d55d59fcc113710dc_20210503001311238.png

(2)执行sql脚本(对数据库表初始化操作)


下面的sql脚本在sqlserver运行不出错,但在kettle就会报错(不知道为什么,所以现在我sql脚本没有写,不过想想确实还不如直接去数据库客户端里建表方便)

IF NOT EXISTS (select * from dbo.sysobjects where xtype='U' and Name = 'kettle_test')
BEGIN
CREATE TABLE kettle_test
(
kind varchar(255),
time varchar(255),
processingDepartment varchar(255),
content varchar(255)
);


END

7adb46de47ecc95c4c22a9760eaf88b1_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


执行结果出错(如下图),后来我把sql语句删了,动手在数据库里建的表。

a302d044c32cd67b01f337d88bcc4853_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



(3)在转换1中新建一个转换;完成输入csv文件,字段切分,输出到表的操作

3008294666a0f53f86430b00410bf444_20210503001054859.png


(这里,观察左菜单栏就会发现它的数据清洗功能)

3430f7e9e716818b635e09d2df73ea8a_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



①给转换建立数据库连接;


2e8261b5a94ddc63b8b219ebdcfc745e_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


②进行csv文件输入:


c8e44e836688d82fec4d223a4159bd00_20210503001054845.png


CSV输入设置

ef15a22b30b4aec2c48931570fb3fc84_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


拆分字段:

9d3ae9e9a9416d42f9387017ad881da8_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



Excel输入设置

从输入组件中拖入EXCEL输入,点击设置:


(1)在弹出框中选择“表格类型”为“Excel 2007 XLSX (Apache POI)”;


(2)点击“文件或目录“后的“浏览”选择需要导入的Excel表格,点击“增加”添加至选中文件列表中;

3af547cece70e3d823b84b18e4efd725_70.png



(3)单击“工作表”,在工作表页面选择“获取工作表名称”,选择相应的“可用项目”添加至“你的选择”中;

9033da5708fee076f02a9748e3762075_70.png



(4)单击“字段”,在字段页面点击“获取来自头部数据的字段”,(所以Excel表格最好带有列字段列名),并可以对获取的数据字段类型进行调整,可以点击“预览记录”查看数据;


4be417182ed12722f9c87d8fc58a1b0f_70.png



表输出设置

展开"输入"列表将"表输出"模块拖入右侧空白区域;

57147aee6010afd4c6e80f0b5225b961_70.png

64fe4dc5fe5cd0c8fbe131dc121e7ab9_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



⑤点击文件,保存


⑥返回作业,为转换1设置:

352405a3cd2fbc107e367d5101dd2154_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png



(4)保存,执行

1de3dc483750c4ead22d9c384ec1514e_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
目录
相关文章
|
12月前
|
Cloud Native Devops 虚拟化
Docker和VMWare有什么不同
【10月更文挑战第18天】Docker和VMWare有什么不同
|
缓存 自然语言处理 算法
ICWS 2024 | 基于生成长度预测的大语言模型推理请求调度
大量实验证明,Magnus 可以有效降低请求响应时间并提高LLM批处理的吞吐量
886 0
|
SQL 分布式计算 关系型数据库
Sqoop入门(一篇就够了)
Sqoop入门(一篇就够了)
7998 3
Sqoop入门(一篇就够了)
|
数据库连接 数据库 关系型数据库
ETL工具 kettle
Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettl
9891 0
|
开发框架 负载均衡 Java
Spring boot与Spring cloud之间的关系
总之,Spring Boot和Spring Cloud之间的关系是一种构建和扩展的关系,Spring Boot提供了基础,而Spring Cloud在此基础上提供了分布式系统和微服务架构所需的扩展和工具。
257 4
Spring boot与Spring cloud之间的关系
|
设计模式 安全 Java
|
数据采集 Oracle 关系型数据库
Kettle入门(一)
Kettle入门(一)
642 0
Kettle入门(一)
ora-04098 触发器无效且未通过重新验证
ora-04098 触发器无效且未通过重新验证
488 0
|
Oracle 关系型数据库
ORA-22859 无效的列修改
ORA-22859 无效的列修改
666 0
|
存储 弹性计算 固态存储
阿里云服务器个人使用配置怎么选?几核几G?
阿里云服务器个人使用怎么选择CPU内存配置?ECS实例规格怎么选?公网带宽多少合适?系统盘多少GB够用
794 0
阿里云服务器个人使用配置怎么选?几核几G?