使用kettle进行数据采集处理与数据关联操作

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 使用kettle进行数据采集处理与数据关联操作

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计1608字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle进行数据采集处理与数据关联操作的工作。通过完成本实验任务,要求学生熟练掌握使用kettle进行数据采集处理与数据关联操作的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle进行数据采集处理与数据关联操作


三、任务环境

Ubuntu16.04、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


五、 任务实施

步骤1、环境准备

右击Ubuntu操作系统桌面,从弹出菜单中选择【Open Terminal Here】命令 打开终端。

 启动kettle。

c2dec417a7ae4b459e7c0ca9cde9cf8d.png



图1 启动kettle


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations即可),然后选择”Design”栏,将”Input”下的”CSV input”(2个)和”Transform”栏下的”Select values”,”Sort rows”,然后是”Lookup”下的”Stream lookup”以及”Output”栏下的”Table output”六个图标拖进工作区。按住Shift键,鼠标拖拽”Table input”图标到”Stream lookup”图标上,产生连线。同理其他的线也连上。注意箭头方向。如图2所示


9dcfcf1b9e5a4852b46156421f3d55e7.png


图2 创建Transformmations

 设置”CSV input”相关内容(双击图表即可)。如图3-4所示。


736cc65b6e604af38b30e30c80950eb4.png


图3 设置”CSV input”相关内容


6e1cff2f29b344dcbeb4979ffa364dd4.png


图4 设置”CSV input”相关内容

 设置”CSV input 2”相关内容(双击图表即可)。如图5-6所示。


a2e92385aac54002881970fc5212dc16.jpg


图5 设置”CSV input 2”相关内容


dfc1be3422234b17aa7aea3c60279c6e.png


图6 设置”CSV input 2”相关内容

 设置”Select values”相关内容(双击图表即可)。如图7所示。


2d668d1242bb47a4a9110f8ba9e39245.jpg


图7 设置”Select values”相关内容

 设置”Stream lookup”相关内容(双击即可)。如图8-9所示。


ae930e123eb947648064ba5d7a0c6956.jpg


图8 设置”Stream lookup”


8ca5b15edf17490596a4cf1a92f7235a.png


图9 设置完毕

 设置”Sort rows”相关参数。如图10所示。


82c9e5517bdc4e25881aa95d7e3d33a1.png


图10 设置”Sort rows”

 开启mysql服务。如图11所示。


71b5825d7d5245dc88067b921734efe5.png


图11 开启mysql

 设置”Table output”相关参数,双击”Table output”即可,mysql数据库密码为”root”。如图12所示。


482e6b47071d4f5a902a6cc3cdb4a71b.png


图12 设置”Table output”

 设置目标表。如图13所示。


5e53c3f654fe4734869e39665407dba6.png


图13 设置目标表

 设置字段映射,最后点击”OK”完成整个设置。如图14所示。


fe887fef5cda4effb6e26a6d944a80a4.png


图14 设置字段映射


步骤3、运行任务

运行,清洗好的数据,批量导入到数据库。如图15-16所示。


786cb766c8964a2092cdb8fc3f9bcf7d.png


图15 运行任务

15087f5069e94a1db26152ac98e1a1c2.png



图16 保存任务

 查看运行结果。如图17所示。

71d2c6ac2762486eb06a17ddc7418dea.png



图17 查看运行结果

 重新打开一个终端,进入mysql,切换到kettleDB数据库,检验记录是否导入。如图18-19所示。

469a711c373240e29d02fc6284ea2604.png



图18 进入数据库


94fc0e23dcbe45af8eca2d7e5e7f7b61.jpg


图19 查看表数据


♥ 知识链接

Output Stream

一个Output Stream 是离开一个步骤时的行的堆栈。


♥ 温馨提示

Value:Value 是行的一部分,并且是包含以下类型的的数据:Strings、floating point Numbers、unlimited precision BigNumbers、Integers、Dates、或者Boolean。


相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
监控 Kubernetes 数据库
实时计算 Flink版产品使用合集之如何实时监控和捕获数据表结构的变化
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStreamAPI、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
数据库连接 数据库
kettle开发篇-流查询
kettle开发篇-流查询
157 0
|
3月前
|
存储 数据采集 分布式计算
批量离线表的工作原理是什么?
【8月更文挑战第11天】
66 5
|
3月前
|
DataWorks 关系型数据库 MySQL
DataWorks实时数据导入:如何实现源源不断的数据流?
【8月更文挑战第22天】在数据处理领域,高效实时传输至关重要。阿里云DataWorks提供全面的数据集成服务,支持多种数据导入方式,尤其实时导入功能因高效处理能力备受欢迎。通过创建数据源与数据集,并配置实时同步任务,可实现数据从MySQL等源到DataWorks数据仓库的快速准确流入。此流程不仅提升了数据处理效率,也确保了数据实时性和准确性,为企业决策提供强有力的支持。
47 1
|
4月前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之运行MR任务读取源表数据并写入新表的过程,有哪些限制
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
5月前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之ods层离线同步任务,数据源的一张表新增了字段。如何更改可以不影响当前节点和下游任务的运行
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
DataWorks 安全 NoSQL
DataWorks产品使用合集之任务已经执行了几天,但血缘关系仅显示为单一表,是什么原因
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
35 0
|
5月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用问题之在进行Oracle数据库的全量同步时,只同步了一条数据而源表实际上包含多条数据,是什么原因
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
6月前
|
SQL Oracle 关系型数据库
实时计算 Flink版产品使用合集之采集选择增量(latest)读取模式,是否可以使用动态加载表功能
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。