使用kettle进行多复合来源数据的采集与关联

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 使用kettle进行多复合来源数据的采集与关联

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计2035字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle进行多复合来源数据的采集与关联的工作。通过完成本实验任务,要求学生熟练掌握使用kettle进行多复合来源数据的采集与关联的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle进行多复合来源数据的采集与关联


三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle组成部分:

52f3414e078b4485a1885c1e2152f345.png


Kettle概念模型图:

ebf0f9d9a0d84d10ac918b16543bc3d4.png


Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

 Transformation(转换):

 Transformation(转换)是由一系列被称之为step(步骤)的逻辑工作的网络。转换本质上是数据流。下图是一个转换的例子,这个转换从文本文件中读取数据,过滤,然后排序,最后将数据加载到数据库。本质上,转换是一组图形化的数据转换配置的逻辑结构,转换的两个相关的主要组成部分是step(步骤)和hops(节点连接),转换文件的扩展名是.ktr。

 Jobs(工作):

 Jobs(工作)是基于工作流模型的,协调数据源、执行过程和相关依赖性的ETL活动,Jobs(工作)将功能性和实体过程聚合在了一起,工作由工作节点连接、工作实体和工作设置组成,工作文件的扩展名是.kjb。

 我们的任务是:

1、掌握使用kettle进行多复合来源数据的采集与关联


五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。

 启动kettle。

9c5d2544089f4134a8661941116d30df.png



图1 启动kettle

 开启mysql服务。如图2所示。


c89c09beac6d48dea7d28d91318dc190.png


图2 开启mysql


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”Table input”,”Text file input”,”CSV file input”和”Lookup”栏下的”Stream lookup”(拖过去两个),以及”Output”栏下的”Table output”六个图标拖进工作区。按住Shift键,鼠标拖拽”Table input”图标到”Stream lookup”图标上,产生连线。同理其他的线也连上。注意箭头方向。如图3所示

83e2b20ef5dd4b7f9cc5a3ec2052c9b2.png



图3 创建Transformmations

 设置”Table input”相关内容(双击图表即可)。如图4-6所示。


0c5989655813489895baf7add15cce6c.png


图4 设置”Table input”相关内容


b9dddc80dfc3419bb35ab074107e0442.png


图5 设置”Table input”相关内容

7a161023c7c34cd9afae12fd7e4345bf.png



图6 设置”Table input”相关内容

 设置”Text file input”相关内容(双击图表即可)。如图7-9所示。

25279e3f253d421eb30d14b5ac8c037f.png



图7 设置”Text file input”相关内容


67be265e8bf74b6c9c2293f09d941689.png


图8 设置”Text file input”相关内容


dc2443cb47214436adc2b7bafb7f97cb.png


图9 设置”Text file input”相关内容

 设置”Stream lookup”相关内容(双击即可)。如图10-11所示。

220ea7b813e843d28966a829fb880cda.png



图10 设置”Stream lookup”

96bc01a43aad4d68b579d0cd3d8bde7b.png



图11 设置完毕

 设置”CSV file input”相关内容(双击图表即可)。如图12-13所示。


9109b298b24d475d83534c78a18636b9.png


图12 设置”CSV file input”相关内容

632aeb82165f434188c5677f88680b50.png



图13 设置”CSV file input”相关内容

 设置”Stream lookup 2”相关内容(双击即可)。如图14-15所示。


9a0b4169f793462cac979511c633e82e.png


图14 设置”Stream lookup 2”


e412eaac8f434ea7bcc7830bcaf62b70.png


图15 设置完毕

 设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图16所示。


c245da63bf6f4054b2f1f74618199767.png


图16 设置”Table output”

 设置目标表。如图17所示。

5bf5e16a11424d48aae8aba79f154d68.png



图17 设置目标表

 设置字段映射,最后点击”OK”完成整个设置。如图18所示。


3fc36b344e5d478685710906bfac075a.png


图18 设置字段映射


步骤3、运行任务

运行,将文件夹中Excel表格,批量导入到数据库。如图19-20所示。


ea9219d26f574d2eabe5bd1933749c0b.png


图19 运行任务


b485ea52bac84b4a9ed35b43bc15f86b.png


图20 保存任务

 查看运行结果。如图21所示。


0599058d0b9e48daa0d80207af08e05c.png


图21 查看运行结果

 重新打开一个终端,进入mysql,切换到kettleDB数据库,检验记录是否导入。如图22-23所示。


72bf018d93e14f9d9d293bce9bdf2580.png


图22 查看表


fb9dd25a110e4643916552592c067b30.png


图23 查看表数据


♥ 知识链接

ETL的作用整个BI/DW系统由三大部分组成:数据集成、数据仓库和数据集市、多维数据分析。


♥ 温馨提示

ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
2月前
|
数据处理 调度
Dataphin功能Tips系列(26)-事实逻辑表配置数据延迟
零售行业中,订单数据是每天晚上由pos系统同步至数据中台,但门店人员经常会没有及时将订单信息录入pos,也许隔天或是隔几天才录入,这会导致指标的不准确性,数据中台的开发人员往往需要进行批量补历史分区的数据,这时怎么才能减轻开发人员的工作,让系统能够自动补前几天分区中的事实逻辑表中的数据呢?
|
4月前
|
存储 搜索推荐 关系型数据库
实时数仓 Hologres产品使用合集之如何在新增列的时候将历史数据也补上默认值
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。
|
6月前
|
DataWorks 安全 NoSQL
DataWorks产品使用合集之任务已经执行了几天,但血缘关系仅显示为单一表,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
42 0
|
7月前
|
SQL 关系型数据库 数据处理
实时计算 Flink版产品使用合集之作业原本只配置了采集一张表,现在想增加一张表,这张新增的表将会增量采集还是重新全量采集
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
104 0
|
PHP
php清洗数据实战案例(4):按照关联数组相同值名称进行筛选后对不同的指标予以合并计算的解决方案
php清洗数据实战案例(4):按照关联数组相同值名称进行筛选后对不同的指标予以合并计算的解决方案
68 0
|
数据采集 运维 Ubuntu
使用kettle进行数据采集处理与数据关联操作
使用kettle进行数据采集处理与数据关联操作
|
存储 数据采集 XML
大数据数据采集的数据来源的日志数据之搜索类数据
在大数据领域,数据采集是一个非常重要的环节。日志数据已经成为了大数据应用中不可或缺的一部分,尤其是搜索类数据。本文将介绍搜索类日志数据作为数据来源的特点以及其采集流程。
190 0
|
数据采集 监控 应用服务中间件
|
关系型数据库 MySQL 监控
日志服务数据加工最佳实践: 使用搜索映射做高级数据富化
典型映射方式不能满足富化需求时, 可以使用搜索映射, 搜索映射与传统方式映射的区别在于匹配方式不同. 本篇介绍日志服务数据加工最佳实践: 使用搜索映射做高级数据富化.
2278 0