三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

简介: 三十二、基于Hadoop伪分布式运行Hadoop自带wordcount案例

环境背景:


Hadoop伪分布式已经搭建完成


Hadoop2.6.0


Hadoop伪分布搭建见:


Hadoop伪分布式的搭建详情https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502

https://blog.csdn.net/m0_54925305/article/details/118650350?spm=1001.2014.3001.5502


案例实施:


1.启动集群:


31.png



2.进入虚拟机浏览器地址栏localhost:50070和localhost:8088查看集群状态:


32.png


33.png

      注:Wordcount是MapReduce的入门示例程序,相当于我们在学某个编程语言时写的Hello World示例一样。这个程序可以统计某个文件中,各个单词出现的次数。Wordcount程序自带的jar包已经放置在hadoop安装目录下的 /share/hadoop/mapreduce 文件夹中。


3.配置wordcount环境:


       (1)进入Hadoop安装路径下可以看到:图中的txt文件为Hadoop自带的测试文件,这里将进行自定义文件进行操作。


34.png


        (2)在这里我们新建wordcount.txt文件进行测试,文本内容如下:

35.png


36.png


       (3)在HDFS根目录下新建input目录:


37.png


       (4)将本地的wordcount.txt上传到HDFS的input目录下:


38.png


       (5)查看文件是否上传成功:          

39.png

注:如图出现/input和/input/wordcount.txt文件即为上传成功


4.运行wordcount案例:


40.png


注:使用hadoop jar命令 +mapreduce自带的jar包路径(绝对路径)+文件名+输入路径+输出路径        #此处jar包根据自身实际情况进行修改


       运行过程注意观察这几处字样,即为运行成功:


41.png

42.png


5.查看运行结果:


       再次查看运行结果文件:


43.png


        可以看到,程序运行产生了很多文件,其中/output/part -r -00000即为程序运行完成时的结果文件,如下图:


44.png


基于Hadoop伪分布式运行Hadoop自带wordcount案例完成


相关文章
|
2月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
49 3
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
105 3
|
2月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
51 2
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
54 1
|
3月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
89 3
Hadoop集群配置https实战案例
|
4月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
258 2
|
4月前
|
存储 分布式计算 Hadoop
Hadoop 运行的三种模式
【8月更文挑战第31天】
488 0
|
2月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
184 6
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
78 2
|
23小时前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
17 4