Kettle可视化ETL工具快速入门 1

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: Kettle可视化ETL工具快速入门

1 可视化ETL工具-Kettle入门

1.1 Kettle介绍

对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle。

  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装

  • Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出
  • Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做

大数据岗位需求

1.2 Kettle安装、配置

环境要求:

  • 安装、配置好JDK

1、下载Kettle

  • 资料\安装包\pdi-ce-8.2.0.0-342.zip

2、解压Kettle

解压后目录

3、双击spoon.bat 启动spoon

启动脚本

1.2.1 Kettle入门案例

需求:

  • 把数据从CSV文件(ketttle测试数据\用户数据源\user.csv)抽取到Excel文件

数据源:

image.png

实现步骤:

1、在Kettle中新建转换

2、拖拽一个CSV输入组件、一个Excel输出组件、并按住Shift拖动鼠标连接两个组件

3、配置CSV输入组件、Excel输出组件

具体实现:

1、新建转换

新建转换

2、拖拽一个CSV输入组件、一个Excel输出组件、并按住Shift拖动鼠标连接两个组件

组件架构图

3、配置CSV输入组件

  • 选择要进行导入的CSV数据源
  • 点击 「获取字段」,读取CSV中的列
  • 点击 「预览」,浏览CSV中的数据

4、配置Excel组件

指定输出Excel文件的位置

5、点击 三角形 箭头执行

执行

1.1.2 Kettle数据流结构图

kettle数据流结构图

2 Kettle输入/输出组件

2.1 输入组件

2.1.1 JSON数据文件输入

需求:

  • 资料\kettle测试数据\用户数据源\user.json 数据文件,通过Kettle,抽取到Excel中
json数据格式
  • 操作步骤:

1、新建转换

2、拽入 JSON input组件、Microsoft Excel输出组件、并连接两个组件

组件架构图

3、配置 JSON input 组件

① 指定JSON文件数据源

② 选择 JSON 字段
|

| 3、配置 Excel 输出 组件 |

|

|

5、启动执行

2.1.2 表输入

需求:

  • 将MySQL数据库中的 user 表中的数据抽取到Excel文件中

环境准备:

一、Kettle整合MySQL数据库

1、将资料中的 MySQL jdbc 驱动包导入到 pdi-ce-8.2.0.0-342\data-integration\lib 中

2、重启 Kettle

二、MySQL建库

1、导入 资料\kettle测试数据\用户数据源\test_t_user.sql 到 MySQL数据库中

准备测试数据源

实现步骤:

1、拉动 输入/表输入 、输出/Excel输出 组件、连接两个组件

2、配置表输入

3、配置Excel输出组件

具体操作:

1、拉动 输入/表输入 、输出/Excel输出 组件、连接两个组件

2、配置表输入

2.1 新建数据库连接

kettle新建数据库连接

2.2 选择 t_user 表,并获取SQL查询语句

编写sql语句

2.3 预览数据

预览数据

注意:创建一个共享的数据库连接操作步骤

主对象树–》DB连接
新建连接
设置连接共享

鼠标右键–》共享;字体变粗后该连接可以全局使用!

3、配置Excel输出组件

  • 指定Excel输出位置
指定excel输出位置


相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
7月前
|
数据可视化 安全 数据挖掘
Tableau快速入门-下载安装加载数据与仪表盘构建
Tableau快速入门-下载安装加载数据与仪表盘构建
Tableau快速入门-下载安装加载数据与仪表盘构建
|
7月前
|
调度
kettle开发篇-写日志
kettle开发篇-写日志
505 0
|
数据采集 SQL 分布式计算
常用的数据集成ETL工具有哪些?
六种常用的数据集成ETL工具
常用的数据集成ETL工具有哪些?
|
1月前
|
数据采集 监控 数据可视化
Kettle的特点是什么?如何使用?
【10月更文挑战第24天】Kettle的特点是什么?如何使用?
114 2
|
7月前
|
SQL 前端开发 JavaScript
kettle开发-超好用自定义数据处理组件
kettle开发-超好用自定义数据处理组件
220 0
|
数据采集 Java 关系型数据库
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
536 0
|
JSON 数据可视化 关系型数据库
Kettle可视化ETL工具快速入门 2
Kettle可视化ETL工具快速入门
247 0
|
XML JSON 大数据
大数据ETL开发之图解Kettle工具
大数据ETL开发之图解Kettle工具
216 0
|
数据可视化 关系型数据库 数据挖掘
「集成架构」2020年最好的15个ETL工具(第三部)
「集成架构」2020年最好的15个ETL工具(第三部)
|
数据可视化 关系型数据库 数据挖掘
集成架构」2020年最好的15个ETL工具(第三部)
集成架构」2020年最好的15个ETL工具(第三部)

热门文章

最新文章