《Hadoop MapReduce实战手册》一1.9 在分布式集群环境中运行WordCount程序

简介:

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第1章,第1.9节,作者: 【美】Srinath Perera , Thilina Gunarathne 译者: 杨卓荦 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.9 在分布式集群环境中运行WordCount程序

Hadoop MapReduce实战手册
本节将描述如何在分布式集群中运行作业。

准备工作
启动Hadoop集群。

操作步骤
现在让我们在分布式的Hadoop环境中运行WordCount示例程序。

  1. 把你的Hadoop发行版目录的README.txt文件复制到HDFS文件系统的/data/input1位置,作为我们前一节中编写的WordCountMapReduce示例的输入数据。
>bin/hadoopdfs -mkdir /data/
>bin/hadoopdfs -mkdir /data/input1
>bin/hadoopdfs -put README.txt /data/input1/README.txt
>bin/hadoopdfs -ls /data/input1

Found 1 items
-rw-r--r-- 1 srinathsupergroup      1366 2012-04-09 08:59 /
data/input1/README.txt
  1. 现在,让我们在HADOOP_HOME目录下运行WordCount示例。
>bin/hadoop jar hadoop-examples-1.0.0.jar wordcount /data/input1/
data/output1

12/04/09 09:04:25 INFO input.FileInputFormat: Total input paths to 
process : 1
12/04/09 09:04:26 INFO mapred.JobClient: Running job:
job_201204090847_0001
12/04/09 09:04:27 INFO mapred.JobClient: map 0% reduce 0%
12/04/09 09:04:42 INFO mapred.JobClient: map 100% reduce 0%
12/04/09 09:04:54 INFO mapred.JobClient: map 100% reduce 100%
12/04/09 09:04:59 INFO mapred.JobClient: Job complete:
job_201204090847_0001
...
  1. 运行下面的命令可列出输出目录的内容,并查看运行结果。
>bin/hadoopdfs -ls /data/output1

Found 3 items
-rw-r--r-- 1 srinathsupergroup   0 2012-04-09 09:04 /
data/output1/_SUCCESS
drwxr-xr-x - srinathsupergroup   0 2012-04-09 09:04 /
data/output1/_logs
-rw-r--r-- 1 srinathsupergroup 1306 2012-04-09 09:04 /
data/output1/part-r-00000

>bin/hadoopdfs -cat /data/output1/*

(BIS), 1
(ECCN) 1
(TSU) 1
(see 1
5D002.C.1, 1
740.13) 1

工作原理
分布式环境的Hadoop作业提交方式与本地安装的Hadoop作业提交方式相似,如1.3节所描述的那样。然而,有两点主要的不同。

首先,Hadoop将作业的输入数据和作业产生的输出数据都存储在HDFS文件系统中。因此,我们使用第1步将输入文件存储在HDFS文件系统中,使用第3步从HDFS文件系统中读取输出文件。

其次,提交作业时,本地Hadoop安装模式将作业放在本地JVM上执行。然而,分布式集群将作业提交给JobTracker,并且使用分布式Hadoop集群中的节点执行该作业。

更多参考
可以通过HDFS监控UI查看WordCount应用程序的结果,如1.6节所描述的那样。同样,也可以像1.10节介绍的那样查看关于WordCount作业的统计信息。

相关文章
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
1057 6
|
分布式计算 Hadoop Java
CentOS中构建高可用Hadoop 3集群
这个过程像是在一个未知的森林中探索。但当你抵达终点,看到那个熟悉的Hadoop管理界面时,所有的艰辛都会化为乌有。仔细观察,尽全力,这就是构建高可用Hadoop 3集群的挑战之旅。
445 21
|
分布式计算 Hadoop Shell
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
Hadoop-35 HBase 集群配置和启动 3节点云服务器 集群效果测试 Shell测试
422 4
|
SQL 分布式计算 Hadoop
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
Hadoop-37 HBase集群 JavaAPI 操作3台云服务器 POM 实现增删改查调用操作 列族信息 扫描全表
282 3
|
分布式计算 Hadoop Shell
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
Hadoop-36 HBase 3节点云服务器集群 HBase Shell 增删改查 全程多图详细 列族 row key value filter
319 3
|
分布式计算 Java Hadoop
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
Hadoop-30 ZooKeeper集群 JavaAPI 客户端 POM Java操作ZK 监听节点 监听数据变化 创建节点 删除节点
328 1
|
分布式计算 监控 Hadoop
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
Hadoop-29 ZooKeeper集群 Watcher机制 工作原理 与 ZK基本命令 测试集群效果 3台公网云服务器
339 1
|
数据采集 分布式计算 搜索推荐
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
Hadoop学习---7、OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗、MapReduce开发总结(一)
|
存储 分布式计算 Hadoop
Hadoop基础学习---6、MapReduce框架原理(一)
Hadoop基础学习---6、MapReduce框架原理(一)
|
存储 分布式计算 Hadoop
【Hadoop】一个例子带你了解MapReduce
【Hadoop】一个例子带你了解MapReduce
268 1

热门文章

最新文章

相关实验场景

更多