使用kettle处理HDFS上的数据并写回HDFS

简介: 使用kettle处理HDFS上的数据并写回HDFS

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计1530字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的使用kettle处理HDFS上的数据并写回HDFS的工作。通过完成本实验任务,要求学生熟练掌握使用kettle处理HDFS上的数据并写回HDFS的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握使用kettle处理HDFS上的数据并写回HDFS


三、任务环境

Ubuntu、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


五、 任务实施

步骤1、环境准备

在节点master上执行命令【start-all.sh】。如图1所示。


3e6a7bc267344d36b5701a389defa3b0.png


图1 启动Hadoop

 启动成功后,出现以下进程信息。如图2-4所示。


d0483f1de9e746a2bf2d83b19c36a08d.png


图2 master节点进程

 启动kettle。如图3所示


a55998c7c35941f2b90dc4306ac24807.png


图3 启动kettle

 修改语言,Tools->Options->Look&Feel设置,设置完重启即可。如图4所示


3e93a1eaf6294db9b34133d285a6879f.jpg


图4 修改语言


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations也可)。如图5所示


ad754378895044d48806a8e58b61fae4.png


图5 创建Transformmations

 配置hadoop集群连接并测试。如图6-7所示。

979f75e61acb4388ad7c35c60d7d72d1.png



图6 创建集群配置


568f488d6749434492eb4b123e5e1efc.png


图7 集群配置及测试

 创建一个hadoop文件输入步骤,并编辑(双击图表即可)。如图8-11所示。

ecfc6cd6fe79440abf5c07845ce3eaf8.png



图8 创建步骤


e9088bfd682a4b28a75b8881aa8a2f3f.png


图9 设置相关内容


3e34141bec3c4058a56d02a12952546a.png


图10 设置相关内容

1531355449f24dfb98aa9dca6593725c.png



图11 设置相关内容

 创建一个字段选择步骤,按住Shift键,鼠标拖拽“Hadoop File Input“图标到“字段选择“图标上,产生连线,注意箭头方向。,并编辑(双击图表即可)。如图12所示。


c47c7a780f1e4daea0d93fe75c60b647.png


图12 创建步骤并设置

 创建一个剪切字符串步骤,按住Shift键,鼠标拖拽“字段选择“图标到“剪切字符串“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图13所示。


c63f4bc6281045c38ddfcb56abfde62e.png


图13 创建步骤并设置相关内容

 创建一个过滤记录步骤,按住Shift键,鼠标拖拽“剪切字符串“图标到“过滤记录“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图14所示。

613c3b46e6ad433cb746d9f5658c2f8a.png



图14 创建步骤并设置相关内容

 创建一个过滤记录步骤,按住Shift键,鼠标拖拽“过滤记录“图标到“Hadoop File Output“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图15-18所示。

3d1d3afb81d245f6b99f6b27076eed02.png



图15 创建步骤


dad56ee6e23744a6a54e783a10fbf746.png


图16 设置相关内容

21c0004d703c4a8b948278f5b62d01d1.png



图17 设置相关内容


e2256cda33684e5da59f409cbc3a2735.png


图18 设置相关内容


步骤3、运行任务

运行,清洗好的数据,批量导入到HDFS系统。如图19-20所示。


3a3a9356cb914f18bbbdb4b20b36237d.png


图19 运行任务


59fcb2c12264462488ee96f9b7188697.png


图20 保存任务

 查看运行结果。如图21所示。


ddd90fbb3edf41c6b0e3651103303286.png


图21 查看运行结果

 重新打开一个终端,检验记录是否导入。如图22所示。


dcda934c7b6743ec9c07710a1aa21e80.png


图22 查看数据


♥ 知识链接

Step

转换的一个步骤,可以是一个Stream或是其他元素。


♥ 温馨提示

Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan 工具来运行,任务是用Kitchen 来运行。Pan 是一个数据转换引擎,它可以执行很多功能,例如:从不同的数据源读取、操作和写入数据。Kitchen 是一个可以运行利用XML 或数据资源库描述的任务。通常任务是在规定的时间间隔内用批处理的模式自动运行。


相关文章
|
3月前
|
SQL 分布式计算 Hadoop
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(一)
58 4
|
3月前
|
SQL
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
Hadoop-14-Hive HQL学习与测试 表连接查询 HDFS数据导入导出等操作 逻辑运算 函数查询 全表查询 WHERE GROUP BY ORDER BY(二)
45 2
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
112 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
52 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
65 0
|
5月前
|
SQL 存储 分布式计算
HDFS数据(跨集群)迁移
HDFS数据(跨集群)迁移
|
6月前
|
分布式计算 Hadoop
|
6月前
|
分布式计算 Hadoop 关系型数据库
实时计算 Flink版操作报错合集之Hadoop在将文件写入HDFS时,无法在所有指定的数据节点上进行复制,该如何解决
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
|
7月前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
280 3
|
8月前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据分片过程
【5月更文挑战第18天】
103 1

热门文章

最新文章