Kettle可视化ETL工具快速入门 1

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
云数据库 RDS MySQL,高可用版 2核4GB 50GB
简介: Kettle可视化ETL工具快速入门

1 可视化ETL工具-Kettle入门

1.1 Kettle介绍

对于企业或行业应用来说,经常会遇到各种数据的处理,转换,迁移,掌握一种etl工具的使用,必不可少,这里要学习的ETL工具是——Kettle。

  • Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装

  • Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出
  • Kettle允许管理来自不同数据库的数据,提供一个图形化的用户环境来描述想做什么,无需关心怎么做

大数据岗位需求

1.2 Kettle安装、配置

环境要求:

  • 安装、配置好JDK

1、下载Kettle

  • 资料\安装包\pdi-ce-8.2.0.0-342.zip

2、解压Kettle

解压后目录

3、双击spoon.bat 启动spoon

启动脚本

1.2.1 Kettle入门案例

需求:

  • 把数据从CSV文件(ketttle测试数据\用户数据源\user.csv)抽取到Excel文件

数据源:

image.png

实现步骤:

1、在Kettle中新建转换

2、拖拽一个CSV输入组件、一个Excel输出组件、并按住Shift拖动鼠标连接两个组件

3、配置CSV输入组件、Excel输出组件

具体实现:

1、新建转换

新建转换

2、拖拽一个CSV输入组件、一个Excel输出组件、并按住Shift拖动鼠标连接两个组件

组件架构图

3、配置CSV输入组件

  • 选择要进行导入的CSV数据源
  • 点击 「获取字段」,读取CSV中的列
  • 点击 「预览」,浏览CSV中的数据

4、配置Excel组件

指定输出Excel文件的位置

5、点击 三角形 箭头执行

执行

1.1.2 Kettle数据流结构图

kettle数据流结构图

2 Kettle输入/输出组件

2.1 输入组件

2.1.1 JSON数据文件输入

需求:

  • 资料\kettle测试数据\用户数据源\user.json 数据文件,通过Kettle,抽取到Excel中
json数据格式
  • 操作步骤:

1、新建转换

2、拽入 JSON input组件、Microsoft Excel输出组件、并连接两个组件

组件架构图

3、配置 JSON input 组件

① 指定JSON文件数据源

② 选择 JSON 字段
|

| 3、配置 Excel 输出 组件 |

|

|

5、启动执行

2.1.2 表输入

需求:

  • 将MySQL数据库中的 user 表中的数据抽取到Excel文件中

环境准备:

一、Kettle整合MySQL数据库

1、将资料中的 MySQL jdbc 驱动包导入到 pdi-ce-8.2.0.0-342\data-integration\lib 中

2、重启 Kettle

二、MySQL建库

1、导入 资料\kettle测试数据\用户数据源\test_t_user.sql 到 MySQL数据库中

准备测试数据源

实现步骤:

1、拉动 输入/表输入 、输出/Excel输出 组件、连接两个组件

2、配置表输入

3、配置Excel输出组件

具体操作:

1、拉动 输入/表输入 、输出/Excel输出 组件、连接两个组件

2、配置表输入

2.1 新建数据库连接

kettle新建数据库连接

2.2 选择 t_user 表,并获取SQL查询语句

编写sql语句

2.3 预览数据

预览数据

注意:创建一个共享的数据库连接操作步骤

主对象树–》DB连接
新建连接
设置连接共享

鼠标右键–》共享;字体变粗后该连接可以全局使用!

3、配置Excel输出组件

  • 指定Excel输出位置
指定excel输出位置


相关实践学习
基于CentOS快速搭建LAMP环境
本教程介绍如何搭建LAMP环境,其中LAMP分别代表Linux、Apache、MySQL和PHP。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
1月前
|
数据可视化 安全 数据挖掘
Tableau快速入门-下载安装加载数据与仪表盘构建
Tableau快速入门-下载安装加载数据与仪表盘构建
Tableau快速入门-下载安装加载数据与仪表盘构建
|
8月前
|
数据采集 Java 关系型数据库
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
企业实战(20)ETL数据库迁移工具Kettle的安装配置详解
232 0
|
8月前
|
数据可视化 关系型数据库 MySQL
数仓学习---16、可视化报表(Superset)
数仓学习---16、可视化报表(Superset)
|
9月前
|
JSON 数据可视化 关系型数据库
Kettle可视化ETL工具快速入门 2
Kettle可视化ETL工具快速入门
170 0
|
SQL 分布式计算 资源调度
5分钟在k8s上可视化搭建Kylin5
使用CloudEon可以极快地在Kubernetes上搭建Kylin5需要的HDFS、YARN、Hive、Zookeeper等组件,省去不少安装的时间。
5分钟在k8s上可视化搭建Kylin5
|
数据可视化 关系型数据库 数据挖掘
集成架构」2020年最好的15个ETL工具(第三部)
集成架构」2020年最好的15个ETL工具(第三部)
|
数据采集 SQL 关系型数据库
Kettle工具使用及总结
kettle主要用于数据清洗,即常见ETL工具,拥有图形化界面且免费的优点。
431 0
Kettle工具使用及总结
|
数据采集 Java Linux
kettle工具(一):简单介绍-入门
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、 Unix.上运行,绿色无需安装,数据抽取高效稳定。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
1342 0
kettle工具(一):简单介绍-入门
|
数据库连接 数据库 关系型数据库
ETL工具 kettle
Kettle简介:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。Kettl
9166 0
|
分布式计算 关系型数据库 大数据
[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云
本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。
20061 0