使用kettle进行数据采集处理与数据关联操作

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
RDS MySQL DuckDB 分析主实例,集群系列 8核16GB
简介: 使用kettle进行数据采集处理与数据关联操作

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计1608字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle进行数据采集处理与数据关联操作的工作。通过完成本实验任务,要求学生熟练掌握使用kettle进行数据采集处理与数据关联操作的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle进行数据采集处理与数据关联操作


三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。

 启动kettle。

c2dec417a7ae4b459e7c0ca9cde9cf8d.png



图1 启动kettle


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”CSV input”(2个)和”Transform”栏下的”Select values”,”Sort rows”,然后是”Lookup”下的”Stream lookup”以及”Output”栏下的”Table output”六个图标拖进工作区。按住Shift键,鼠标拖拽”Table input”图标到”Stream lookup”图标上,产生连线。同理其他的线也连上。注意箭头方向。如图2所示


9dcfcf1b9e5a4852b46156421f3d55e7.png


图2 创建Transformmations

 设置”CSV input”相关内容(双击图表即可)。如图3-4所示。


736cc65b6e604af38b30e30c80950eb4.png


图3 设置”CSV input”相关内容


6e1cff2f29b344dcbeb4979ffa364dd4.png


图4 设置”CSV input”相关内容

 设置”CSV input 2”相关内容(双击图表即可)。如图5-6所示。


a2e92385aac54002881970fc5212dc16.jpg


图5 设置”CSV input 2”相关内容


dfc1be3422234b17aa7aea3c60279c6e.png


图6 设置”CSV input 2”相关内容

 设置”Select values”相关内容(双击图表即可)。如图7所示。


2d668d1242bb47a4a9110f8ba9e39245.jpg


图7 设置”Select values”相关内容

 设置”Stream lookup”相关内容(双击即可)。如图8-9所示。


ae930e123eb947648064ba5d7a0c6956.jpg


图8 设置”Stream lookup”


8ca5b15edf17490596a4cf1a92f7235a.png


图9 设置完毕

 设置”Sort rows”相关参数。如图10所示。


82c9e5517bdc4e25881aa95d7e3d33a1.png


图10 设置”Sort rows”

 开启mysql服务。如图11所示。


71b5825d7d5245dc88067b921734efe5.png


图11 开启mysql

 设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图12所示。


482e6b47071d4f5a902a6cc3cdb4a71b.png


图12 设置”Table output”

 设置目标表。如图13所示。


5e53c3f654fe4734869e39665407dba6.png


图13 设置目标表

 设置字段映射,最后点击”OK”完成整个设置。如图14所示。


fe887fef5cda4effb6e26a6d944a80a4.png


图14 设置字段映射


步骤3、运行任务

运行,清洗好的数据,批量导入到数据库。如图15-16所示。


786cb766c8964a2092cdb8fc3f9bcf7d.png


图15 运行任务

15087f5069e94a1db26152ac98e1a1c2.png



图16 保存任务

 查看运行结果。如图17所示。

71d2c6ac2762486eb06a17ddc7418dea.png



图17 查看运行结果

 重新打开一个终端,进入mysql,切换到kettleDB数据库,检验记录是否导入。如图18-19所示。

469a711c373240e29d02fc6284ea2604.png



图18 进入数据库


94fc0e23dcbe45af8eca2d7e5e7f7b61.jpg


图19 查看表数据


♥ 知识链接

Output Stream

一个Output Stream 是离开一个步骤时的行的堆栈。


♥ 温馨提示

Value:Value 是行的一部分,并且是包含以下类型的的数据:Strings、floating point Numbers、unlimited precision BigNumbers、Integers、Dates、或者Boolean。


相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
数据库连接 数据库
kettle开发篇-数据库查询
kettle开发篇-数据库查询
467 0
|
定位技术 数据中心
全球历史台风轨迹数据的艰难寻找经历
全球历史台风轨迹数据的艰难寻找经历
1388 0
|
SQL 存储 数据挖掘
【虚拟机数据恢复】VMware虚拟机文件被误删除的数据恢复案例
虚拟机数据恢复环境: 某品牌R710服务器+MD3200存储,上层是ESXI虚拟机和虚拟机文件,虚拟机中存放有SQL Server数据库。 虚拟机故障: 机房非正常断电导致虚拟机无法启动。服务器管理员检查后发现虚拟机配置文件丢失,所幸xxx-flat.vmdk磁盘文件和xxx-000001-delta.vmdk快照文件还在。服务器管理员在尝试恢复虚拟机的过程中,将原虚拟机内的xxx-flat.vmdk删除后新建了一个虚拟机,并分配了精简模式的虚拟机磁盘和快照数据盘,但原虚拟机内的数据并没有恢复。
【虚拟机数据恢复】VMware虚拟机文件被误删除的数据恢复案例
差异基因分析:fold change(差异倍数), P-value(差异的显著性)
差异基因分析:fold change(差异倍数), P-value(差异的显著性)
4303 0
差异基因分析:fold change(差异倍数), P-value(差异的显著性)
|
人工智能 API C++
【AI绘画大比拼】通义万相VS文心一格:探索十种风格下的绘画生成差异!
近日,通义大模型家族的新成员——通义万相已在人工智能大会上亮相。其中,通义万相的强大的“文生图”功能,不禁让我想到了去年八月由百度依托飞桨、文心大模型的技术创新推出的“AI作画”首款产品——文心一格。 那么,在类似的Prompt下,两款产品的表现将会如何呢?今天就让我们就十种风格下二者生成图像的表现力,来看看这两款产品的差异。
|
存储 关系型数据库 MySQL
【MySQL专题】MySQL百万级数据插入效率优化
【MySQL专题】MySQL百万级数据插入效率优化
1264 0
【MySQL专题】MySQL百万级数据插入效率优化
|
机器学习/深度学习 人工智能 算法
软件测试中的人工智能应用与前景
随着技术的不断进步,人工智能(AI)在软件测试中的应用越来越广泛。本文将探讨AI在软件测试中的具体应用,包括自动化测试、缺陷预测及测试用例生成等方面的内容。同时,我们将讨论AI在软件测试中的优势和挑战,并展望未来的发展趋势。
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
存储 Cloud Native Go
云原生之使用docker部署Dochub文库系统
云原生之使用docker部署Dochub文库系统
1078 0
云原生之使用docker部署Dochub文库系统
|
数据采集 数据管理 数据挖掘
CDGP|数据治理策略揭秘:因企制宜,实现精准管控新高度
数据治理是指通过制定一系列政策、流程和技术手段,对企业数据进行全面、系统、规范的管理。它不仅能够确保数据的准确性、一致性和安全性,还能提升数据的质量和价值,为企业决策提供有力支持。因此,制定数据治理策略的首要任务是明确其核心价值,确保策略能够服务于企业的整体战略目标。