无事来学学--Kettle的安装和基本概念了解(上)

简介: 什么是ETL?ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少

1、什么是ETL?


ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,所以了解并掌握一种etl工具的使用,必不可少

具体详情不懂的ETL可以看我往期博客,点击这里


2、什么是Kettle?


Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制

Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。


3、Kettle的下载。


Kettle官方网址:community.hitachivantara.com/s/article/d…,目前最新版本8.2版本的,不建议官网下载,贼慢,压缩包一个G左右的。

Kettle的国内镜像:7.1版本,mirror.bit.edu.cn/pentaho/Dat…,8.2版本,mirror.bit.edu.cn/pentaho/Pen…


4、 Kettle安装


压缩包下载完毕,解压缩即可。Kettle的目录文件,如下所示:

网络异常,图片无法展示
|

网络异常,图片无法展示
|

网络异常,图片无法展示
|


5、 Kettle的部署


Kettle下载以后需要配置一下java环境变量,不懂的可以百度一下

由于Kettle是Java语言开发的,该软件的允许需要Java运行环境的依赖。需要先安装JDK,准备好Java软件的运行环境。安装jdk1.8版本即可,配置环境变量,这些自己百度一下就行了,不啰嗦了。在Window10环境下,双击Spoon.bat即可运行了。


6、Kettle界面简介


网络异常,图片无法展示
|

网络异常,图片无法展示
|

网络异常,图片无法展示
|


网络异常,图片无法展示
|


7、Kettle的结构。


网络异常,图片无法展示
|


8、Kettle的结构-Spoon和Data Integration Server。


Spoon是构建ETL Jobs和Transformations的工具。Spoon以拖拽的方式图形化设计,能够通过spoon调用专用的数据集成引擎或者集群。

Data Integration Server是一个专用的ETL Server,它的主要功能有:

网络异常,图片无法展示
|


9、Kettle的结构-Enterprise Console。


Enterprise Console(企业控制台)提供了一个小型的客户端,用于管理Pentaho Data Integration企业版的部署。包括企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。


10、kettle的核心组件。


网络异常,图片无法展示
|


11、Kettle概念模型。


Kettle的执行分为两个层次: Job(作业)和Transformation(转换)。

网络异常,图片无法展示
|

目录
相关文章
|
分布式计算 前端开发 Hadoop
【细节拉满】Hadoop课程设计项目,使用idea编写基于MapReduce的学生成绩分析系统(附带源码、项目文件下载地址)(三)
【细节拉满】Hadoop课程设计项目,使用idea编写基于MapReduce的学生成绩分析系统(附带源码、项目文件下载地址)(三)
869 0
|
6月前
|
缓存 运维 Linux
保姆级python项目离线部署服务器教程只需这一篇就够了(建议收藏)
这篇文章提供了详尽的Python项目在离线Linux(CentOS)服务器上的部署教程。作者首先介绍了环境背景,强调了无网络环境和使用有网络的CentOS虚拟机准备安装包的重要性。教程分为两部分:外网环境搭建和内网离线安装。在外网环境中,包括下载Python 3.9.0安装包、传输至服务器、安装依赖包,并使用pip3下载项目所需依赖。内网安装则涉及依赖包的复制和Python环境的同样步骤。最后,作者分享了运行项目的命令,并总结了离线安装的整个流程,提醒读者注意可能出现的问题。
保姆级python项目离线部署服务器教程只需这一篇就够了(建议收藏)
|
存储 SQL 关系型数据库
【MySQL】看完这篇不信你学不会如何使用数据处理函数(二)
【MySQL】看完这篇不信你学不会如何使用数据处理函数(二)
84 0
|
SQL 存储 算法
【MySQL】看完这篇不信你学不会如何使用数据处理函数(一)
【MySQL】看完这篇不信你学不会如何使用数据处理函数(一)
114 0
|
6月前
|
SQL 数据可视化 关系型数据库
【MySQL进阶之路丨第四篇】命令行与可视化工具
【MySQL进阶之路丨第四篇】命令行与可视化工具
295 0
|
分布式计算 Hadoop
【细节拉满】Hadoop课程设计项目,使用idea编写基于MapReduce的学生成绩分析系统(附带源码、项目文件下载地址)(二)
【细节拉满】Hadoop课程设计项目,使用idea编写基于MapReduce的学生成绩分析系统(附带源码、项目文件下载地址)(二)
618 0
|
SQL 数据采集 数据库连接
kettle基础概念理解
kettle基础概念理解
133 0
|
SQL JSON NoSQL
开心档-软件开发入门之Python MongoDB
MongoDB 是目前最流行的 NoSQL 数据库之一,使用的数据类型 BSON(类似 JSON)。 MongoDB 数据库安装与介绍可以查看我们的 MongoDB 教程。
|
分布式计算 Hadoop
Hadoop快速入门——第二章、分布式集群(第四节、搭建开发环境)(1)
Hadoop快速入门——第二章、分布式集群(第四节、搭建开发环境)
94 0
Hadoop快速入门——第二章、分布式集群(第四节、搭建开发环境)(1)
|
存储 分布式计算 Hadoop
Hadoop快速入门——第二章、分布式集群(第四节、搭建开发环境)(2)
Hadoop快速入门——第二章、分布式集群(第四节、搭建开发环境)
125 0
Hadoop快速入门——第二章、分布式集群(第四节、搭建开发环境)(2)
下一篇
无影云桌面