三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

简介: 三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

环境背景:


Hadoop伪分布式已经搭建完成


Hadoop2.6.0


Hadoop伪分布搭建见:


Hadoop伪分布式的搭建详情https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502

https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502


案例实施:


1.启动集群:


31.png



2.进入虚拟机浏览器地址栏localhost:50070和localhost:8088查看集群状态:


32.png


33.png

      注:Wordcount是MapReduce的入门示例程序,相当于我们在学某个编程语言时写的Hello World示例一样。这个程序可以统计某个文件中,各个单词出现的次数。Wordcount程序自带的jar包已经放置在hadoop安装目录下的 /share/hadoop/mapreduce 文件夹中。


3.配置wordcount环境:


       (1)进入Hadoop安装路径下可以看到:图中的txt文件为Hadoop自带的测试文件,这里将进行自定义文件进行操作。


34.png


        (2)在这里我们新建wordcount.txt文件进行测试,文本内容如下:

35.png


36.png


       (3)在HDFS根目录下新建input目录:


37.png


       (4)将本地的wordcount.txt上传到HDFS的input目录下:


38.png


       (5)查看文件是否上传成功:          

39.png

注:如图出现/input和/input/wordcount.txt文件即为上传成功


4.运行wordcount案例:


40.png


注:使用hadoop jar命令 +mapreduce自带的jar包路径(绝对路径)+文件名+输入路径+输出路径        #此处jar包根据自身实际情况进行修改


       运行过程注意观察这几处字样,即为运行成功:


41.png

42.png


5.查看运行结果:


       再次查看运行结果文件:


43.png


        可以看到,程序运行产生了很多文件,其中/output/part -r -00000即为程序运行完成时的结果文件,如下图:


44.png


基于Hadoop伪分布式运行Hadoop自带wordcount案例完成


相关文章
|
21天前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
91 0
|
21天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
158 2
|
21天前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
|
21天前
|
存储 分布式计算 Hadoop
【分布式计算框架】Hadoop伪分布式安装
【分布式计算框架】Hadoop伪分布式安装
11 2
|
21天前
|
分布式计算 Hadoop
使用Hadoop ToolRunner 运行wordcount demo
使用Hadoop ToolRunner 运行wordcount demo
31 0
|
21天前
|
分布式计算 资源调度 Hadoop
hadoop的伪分布式搭建-带网盘
hadoop的伪分布式搭建-带网盘
27 3
|
21天前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
145 0
|
21天前
|
分布式计算 监控 Hadoop
Hadoop MR 任务运行时日志分析
Hadoop MR 任务运行时日志分析
35 0
|
21天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
109 2
|
21天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

相关实验场景

更多