hadoop第一个运行实例wordcount

简介: hadoop第一个运行实例wordcount

引语:

这几周事情比较多,两周没写博客了,这周总算把hadoop的实例给运行起来,然后跑了一下官方的wordcount例子(用于统计文件中单词出现的次数)。
接下来是我成功运行实例的记录。运行的前提是安装配置好hadoop(可以参考我上一篇博客:hadoop伪分布式安装记录

运行步骤:

1.先准备一个包含单词的文件,然后将这个文件上传到linux服务器上。
文件内容:

hello world hello hadoop
abc hadoop aabb hello word
count test hdfs mapreduce

2.使用hdfs的命令创建好输入文件的目录(hfds的命令基本上和linux一样,可以去官网上查看下) hadoop fs -mkdir /input/wordcount
然后在创建一个输出目录/output为后续hadoop存放运行结果

3.然后将文件放入到hadoop的文件系统中hadoop fs -put /home/file1 /input/wordcount
创建完可以使用ls检查一下是否文件存在 hadoop fs -ls -R /

4.再进入到hadoop的share/hadoop/mapreduce中,有一个hadoop-mapreduce-examples-3.1.2.jar
通过hadoop jar hadoop-mapreduce-examples-3.1.2.jar 可以查看到这个官方给的例子里面有哪些程序可以执行
如下:

可以看到很多自带的使用程序,我们这里就使用wordcount。
执行命令

hadop jar hadoop-mapreduce-examples-3.1.2.jar /input/wordcount /output/wordcount

最后的两个参数一个是文件的输入路径,就是我们之前创建再hdfs的路径,第二个参数是文件的输出路径,
如果没有的话hadoop会自己创建。
5.然后首先会进行map的过程,在使reduce的过程,这里可以理解为分而治之的步骤,map是多台机器上分别处理文件的中间结果,然后通过reduce(减少,聚合)把结果给汇总。
而且是先map执行完再回执行reduce。

6.去输出文件中查看结果,output/wordcount里面会有三个文件,有一个带part的就是输出结果,可以使用hadoop fs -cat 输出文件的路径查看结果

总结:

虽然看起来步骤不是很多,内容也比较简单,但是坑还是挺多的。要注意的点:
1.伪分布式搭建的hadoop,hostname这个要设置好,要和配置文件中一致,实在不行就直接指定127.0.0.1(反正我是这样解决了)
2.yarn的内存配置要合理,太小了发现会一直卡在runing job这个环节或者一直卡在map 0%这里,此时要去yarn-site中设置好内存的大小(根据实际服务器的内存设置,我设置的是2048M后就可以了)
3.如果发现卡在某个环节,记得去查看hadoop安装目录下的logs,里面有很多日志类型,包括nodeManageer,resourceManager等,执行不动了,日志里面会有相应的日志和提示可以帮助发现问题。

相关文章
|
1月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
41 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
95 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
47 1
|
3月前
|
存储 分布式计算 算法
探索Hadoop的三种运行模式:单机模式、伪分布式模式和完全分布式模式
在配置Hadoop集群之前,了解这三种模式的特点、适用场景和配置差异是非常重要的。这有助于用户根据个人需求和资源情况,选择最适合自己的Hadoop运行模式。在最初的学习和开发阶段,单机模式和伪分布式模式能为用户提供便利和成本效益。进而,当用户要处理大规模数据集时,完全分布式模式将是理想的选择。
187 2
|
3月前
|
分布式计算 Hadoop Java
Hadoop_MapReduce中的WordCount运行详解
MapReduce的WordCount程序在分布式系统中计算大数据集中单词出现的频率时,提供了一个可以复用和可伸缩的解决方案。它体现了MapReduce编程模型的强大之处:简单、可靠且将任务自动分布到一个集群中去执行。它首先运行一系列的Map任务来处理原始数据,然后通过Shuffle和Sort机制来组织结果,最后通过运行Reduce任务来完成最终计算。因此,即便数据量非常大,通过该模型也可以高效地进行处理。
94 1
|
3月前
|
存储 分布式计算 Hadoop
Hadoop 运行的三种模式
【8月更文挑战第31天】
340 0
|
4月前
|
分布式计算 资源调度 监控
Hadoop中运行Job
【7月更文挑战第10天】
51 2
|
5月前
|
存储 缓存 分布式计算
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
150 6
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
65 2

相关实验场景

更多