《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序-阿里云开发者社区

《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

2017-05-02 1270

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第1章，第1.9节，作者：【美】Srinath Perera , Thilina Gunarathne 译者：杨卓荦责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.9 在分布式集群环境中运行WordCount程序

Hadoop MapReduce实战手册
本节将描述如何在分布式集群中运行作业。

准备工作
启动Hadoop集群。

操作步骤
现在让我们在分布式的Hadoop环境中运行WordCount示例程序。

把你的Hadoop发行版目录的README.txt文件复制到HDFS文件系统的/data/input1位置，作为我们前一节中编写的WordCountMapReduce示例的输入数据。

>bin/hadoopdfs -mkdir /data/
>bin/hadoopdfs -mkdir /data/input1
>bin/hadoopdfs -put README.txt /data/input1/README.txt
>bin/hadoopdfs -ls /data/input1

Found 1 items
-rw-r--r-- 1 srinathsupergroup 　　　　　1366 2012-04-09 08:59 /
data/input1/README.txt

现在，让我们在HADOOP_HOME目录下运行WordCount示例。

>bin/hadoop jar hadoop-examples-1.0.0.jar wordcount /data/input1/
data/output1

12/04/09 09:04:25 INFO input.FileInputFormat: Total input paths to 
process : 1
12/04/09 09:04:26 INFO mapred.JobClient: Running job:
job_201204090847_0001
12/04/09 09:04:27 INFO mapred.JobClient: map 0% reduce 0%
12/04/09 09:04:42 INFO mapred.JobClient: map 100% reduce 0%
12/04/09 09:04:54 INFO mapred.JobClient: map 100% reduce 100%
12/04/09 09:04:59 INFO mapred.JobClient: Job complete:
job_201204090847_0001
...

运行下面的命令可列出输出目录的内容，并查看运行结果。

>bin/hadoopdfs -ls /data/output1

Found 3 items
-rw-r--r-- 1 srinathsupergroup　　 0 2012-04-09 09:04 /
data/output1/_SUCCESS
drwxr-xr-x - srinathsupergroup　　 0 2012-04-09 09:04 /
data/output1/_logs
-rw-r--r-- 1 srinathsupergroup 1306 2012-04-09 09:04 /
data/output1/part-r-00000

>bin/hadoopdfs -cat /data/output1/*

(BIS), 1
(ECCN) 1
(TSU) 1
(see 1
5D002.C.1, 1
740.13) 1

工作原理
分布式环境的Hadoop作业提交方式与本地安装的Hadoop作业提交方式相似，如1.3节所描述的那样。然而，有两点主要的不同。

首先，Hadoop将作业的输入数据和作业产生的输出数据都存储在HDFS文件系统中。因此，我们使用第1步将输入文件存储在HDFS文件系统中，使用第3步从HDFS文件系统中读取输出文件。

其次，提交作业时，本地Hadoop安装模式将作业放在本地JVM上执行。然而，分布式集群将作业提交给JobTracker，并且使用分布式Hadoop集群中的节点执行该作业。

更多参考
可以通过HDFS监控UI查看WordCount应用程序的结果，如1.6节所描述的那样。同样，也可以像1.10节介绍的那样查看关于WordCount作业的统计信息。

《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

1.9 在分布式集群环境中运行WordCount程序

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

1.9 在分布式集群环境中运行WordCount程序

热门文章

最新文章

相关课程

相关电子书

相关实验场景