使用kettle采集并处理mysql数据库中的数据

2023-05-31 361

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS MySQL，集群系列 2核4GB

云数据库 RDS MySQL，高可用系列 2核4GB

简介： 使用kettle采集并处理mysql数据库中的数据

申明：未经许可，禁止以任何形式转载，若要引用，请标注链接地址

全文共计1857字，阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle采集并处理mysql数据库中的数据的工作。通过完成本实验任务，要求学生熟练掌握使用kettle采集并处理mysql数据库中的数据的方法，为后续实验的开展奠定ETL平台基础，也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。

二、任务目标

1、掌握使用kettle采集并处理mysql数据库中的数据

三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1

四、任务分析

Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

Kettle组成部分：

Kettle概念模型图：

Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

Transformation（转换）：

Transformation（转换）是由一系列被称之为step（步骤）的逻辑工作的网络。转换本质上是数据流。下图是一个转换的例子，这个转换从文本文件中读取数据，过滤，然后排序，最后将数据加载到数据库。本质上，转换是一组图形化的数据转换配置的逻辑结构，转换的两个相关的主要组成部分是step（步骤）和hops（节点连接），转换文件的扩展名是.ktr。

Jobs（工作）：

Jobs（工作）是基于工作流模型的，协调数据源、执行过程和相关依赖性的ETL活动，Jobs（工作）将功能性和实体过程聚合在了一起，工作由工作节点连接、工作实体和工作设置组成，工作文件的扩展名是.kjb。

五、任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面，从弹出菜单中选择【Open in Terminal】命令打开终端。

启动kettle。

图1 启动kettle

开启mysql服务。如图2所示。

图2 开启mysql

步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Table input”和”Transform”栏下的”Select values”,”Sort rows”,”Unique rows”然后是”Flow”下的”Filter rows”以及”Output”栏下的”Table output”六个图标拖进工作区。按住Shift键，鼠标拖拽”Table input”图标到”Select values”图标上，产生连线。同理其他的线也连上。注意箭头方向。如图3所示