大数据预处理工具的综合使用

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 大数据预处理工具的综合使用

申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址

全文共计1708字,阅读大概需要3分钟

一、任务描述

本实验任务主要完成基于ubuntu环境的大数据预处理工具的综合使用的工作。通过完成本实验任务,要求学生熟练掌握使用大数据预处理工具的综合使用的方法,为后续实验的开展奠定ETL平台基础,也为从事大数据平台运维工程师、大数据技术支持工程师等岗位工作奠定夯实的技能基础。


二、任务目标

1、掌握大数据预处理工具的综合使用


三、任务环境

Ubuntu(三台节点:mater,slave1,slave2)、Java1.8、Kettle7.1


四、任务分析

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

 Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。


五、 任务实施

步骤1、环境准备

在节点master上执行命令【start-all.sh】。如图1所示。


7aa9f8d9b94e455f85196f6bb41f7c2f.png


图1 启动Hadoop

 启动成功后,节点出现以下进程信息。如图2所示。


257638db8ad84d4b804de4701bf51261.png


图2 master节点进程

 启动kettle。如图3所示


7ac69b9f51d2428d80cb88a48c8b97c3.png


图3 启动kettle

 修改语言,Tools-&Options-&Look&Feel设置,设置完重启即可。如图4所示

68b08b9efb844c359c7b77d5626148e2.jpg



图4 修改语言


步骤2、创建Transformmations

新建一个”Transformmations”(双击Transformmations也可)。如图5所示

426527da282649b2b6b75a680ab99286.png



图5 创建Transformmations

 配置hadoop集群连接并测试。如图6-7所示。


1ff8c3e19c7e436187cb1bac8d9fad36.png


图6 创建集群配置


f793127f16794a64a09c8f4940e14f04.png


图7 集群配置及测试

 创建一个文本文件输入步骤,并编辑(双击图表即可)。如图8-11所示。


839acf9b5a7b44ca97d9a7be4905e4c3.png


图8 创建步骤


556ab45d1783442c8ead1a9a50b3a3b9.png


图9 设置相关内容


a2269e0b0b3d485ebaf4fd36c660bd55.png


图10 设置相关内容


7cf5b3d4f4c740a29918046fa6cbc3fa.png


图11 设置相关内容

 创建一个字段选择步骤,按住Shift键,鼠标拖拽“文本文件输入“图标到“字段选择“图标上,产生连线,注意箭头方向。,并编辑(双击图表即可)。如图12所示。


bdcc1dc87d4a4ab49ec59664378610b4.png


图12 创建步骤并设置

 创建一个剪切字符串步骤,按住Shift键,鼠标拖拽“字段选择“图标到“剪切字符串“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图13所示。


c26fdef3bc4d4713aa5599030b91c34f.png


图13 创建步骤并设置相关内容

 创建一个JavaScript代码步骤,按住Shift键,鼠标拖拽“剪切字符串“图标到“JavaScript代码“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图14所示。


ea6996be78674e968809a46f6d0fcb2a.png


图14 创建步骤并设置相关内容

 创建一个过滤记录步骤,按住Shift键,鼠标拖拽“JavaScript代码“图标到“过滤记录“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图15所示。


8a4571344a634a60ba73f27d841f7975.png


图15 创建步骤并设置相关内容

 创建一个Hadoop File Output步骤,按住Shift键,鼠标拖拽“过滤记录“图标到“Hadoop File Output“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图16-19所示。

2cfa290004044a4b85c2cb358f3efa0f.png



图16 创建步骤


020f4b23c51a4c199e9634cc7c00a621.png


图17 设置相关内容


bc358f4e3c0a4a1ea616295c427af1eb.png


图18 设置相关内容

d3f8119bd7f74ee98db122ef4eb78b3d.png



图19 设置相关内容

 创建一个文本文件输出步骤,按住Shift键,鼠标拖拽“过滤记录“图标到“文本文件输出“图标上,产生连线,注意箭头方向,并编辑(双击图表即可)。如图20-23所示。


adc47328bbd04c4fa0dea0c74c9011c3.png


图20 创建步骤

5935d77fc7a642cb9e145a82bb4a3331.png



图21 设置相关内容

6b986315733a4485922344f7a269ce42.png



图22 设置相关内容


4b8f6b959cd84dc98c95129d631008cd.png


图23 设置相关内容


步骤3、运行任务

运行,清洗好的数据,批量导入到HDFS系统。如图24-25所示。


fcc5f3a96a304fb583e5abd9bfa4d808.png


图24 运行任务


4ab2dba04cf242159ecbab78a0d37c44.png


图25 保存任务

 查看运行结果。如图26所示。

3cd7f41b845546b3984108a698c2cac5.png



图26 查看运行结果

 重新打开一个终端,检验记录是否导入。如图27-28所示。


8f42175c17a74a2cacec1d17611720a1.png


图27 查看数据

a069895037c54176a3fafbdc0ee3ad52.png



图28 查看数据


♥ 知识链接

Hop

一个Hop 代表两个步骤之间的一个或者多个数据流。一个Hop 总是代表着一个步骤的输出流和一个步骤的输入流。


♥ 温馨提示

输入类步骤用来从外部获取数据,可以获取数据的数据源包括,文本文件(txt,csv,xml,json)数据库、 Excel 文件等桌面文件,自定义的数据等。对特殊数据源和应用需求可以自定义输入插件。


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
SQL 分布式计算 数据可视化
Tableau与大数据:可视化工具在大数据分析中的应用
【4月更文挑战第8天】Tableau是一款领先的数据可视化工具,擅长于大数据分析,提供广泛的数据连接器,支持多源整合。它与Hadoop、Spark等深度集成,实现高效大数据处理。Tableau的拖拽式界面和交互式分析功能使得非技术人员也能轻松探索数据。在实战中,Tableau用于业务监控、数据storytelling和自助式分析,推动数据民主化,提升决策效率。未来,Tableau将持续创新,扩展生态系统,并保障数据安全与合规性,助力企业最大化数据价值。
416 0
|
7月前
|
SQL 分布式计算 监控
MaxCompute提供了一些工具以帮助您监控作业和资源使用情况。
【2月更文挑战第4天】MaxCompute提供了一些工具以帮助您监控作业和资源使用情况。
89 8
|
2月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
157 4
|
4月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
147 0
|
20天前
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
33 4
|
3天前
|
存储 人工智能 算法
为什么局域网协作工具是大数据时代的必需品?
本文深入解析了局域网文档协同编辑的技术原理与优势,涵盖分布式系统架构、实时同步技术、操作变换及冲突自由的副本数据类型等核心概念。同时,探讨了其在信息安全要求高的组织、远程与现场混合团队、教育与科研团队等场景的应用,以及国内外技术方案对比和市场未来趋势。
|
1月前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
2月前
|
存储 分布式计算 大数据
大数据的工具都有哪些?
【10月更文挑战第9天】大数据的工具都有哪些?
98 1
|
3月前
|
存储 分布式计算 Hadoop
大数据分析的工具
大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器,气候信息,公开的信息,如杂志,报纸,文章。大数据产生的其他例子包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务。
47 8
|
2月前
|
分布式计算 Hadoop 数据挖掘
6个常用大数据分析工具集锦
6个常用大数据分析工具集锦
67 0