Hadoop本地运行模式(Grep案例和WordCount 案例)

简介: Hadoop本地运行模式(Grep案例和WordCount 案例)

前言

Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式

运行官方Grep案例

提供一些文本文件, grep可以从中找到想要匹配的文本

1. 在当前用户主(HOME)目录下面创建一个input目录

[ytsky@hadoop101 ~]$ mkdir input

2.将Hadoop的xml配置文件复制到input

[ytsky@hadoop101 ~]$ cp $HADOOP_HOME/etc/hadoop/*.xml input

3. 执行share目录下的MapReduce程序

[ytsky@hadoop101 ~]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

运行命令解释:

hadoop:hadoop启动命令

jar:以jar包运行方式运行

share/hadoop/mapreduce-examles-2.7.2.jar  :这是hadoop官网提供的案例目录

grep:启动grep案例

input:输入目录

output:输出目录

需要注意:输出目录默认是由程序创建的,如果存在output输出目录,则程序会报错

你需要删除已存在的输出目录(rm -rf output)

'dfs[a-z.]+':正则表达式 表示已dfs开头所有匹配项,可无限累加

4. 查看输出结果

运行后,会在主目录中生成一个output目录,该目录存放运行结果

part-r-0000: 表示运行结果 ,其中r表示reduce运行结果,0000表示结果编号

[ytsky@hadoop101 output]$ cat part-r-00000

只有一个运行结果。

运行官方WordCount 案例

这例子是对文件中某些单词进行统计数。

1.在hadoop-2.7.2文件下面创建一个wcinput目录

[ytsky@hadoop101 ~]$ mkdir wcinput

2.在wcinput文件下创建一个wc.input文件

[ytsky@hadoop101 ~]$ cd wcinput

[ytsky@hadoop101 wcinput]$ touch wc.input

3编辑wc.input文件

[ytsky@hadoop101 wcinput]$ vi wc.input

在文件中输入如下内容

hadoop yarn ytsky

mapreduce yarn

ytsky hadoop

hadoop

保存退出(:wq)

4.执行程序

[ytsky@hadoop101 ~]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

注意: 本地模式下运行程序分析,会显示一个运行进程(RunJar),当运行完成后该进程就会消失

5. 查看结果

[ytsky@hadoop101 ~]$ cat wcoutput/part-r-00000


相关文章
|
3月前
|
分布式计算 Hadoop Java
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
Hadoop快速入门——第一章、认识Hadoop与创建伪分布式模式(Hadoop3.1.3版本配置)
68 0
|
19天前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
69 2
|
5月前
|
分布式计算 Hadoop
使用Hadoop ToolRunner 运行wordcount demo
使用Hadoop ToolRunner 运行wordcount demo
27 0
|
15天前
|
存储 分布式计算 Hadoop
Hadoop的运行模式
【4月更文挑战第12天】Hadoop支持三种运行模式:本地模式适用于初学者和小型项目;伪分布式集群模式用于测试,数据存储在HDFS;完全分布式集群模式,适用于企业级大规模数据处理,具有高吞吐量和容错性。选择模式取决于实际需求和环境配置。Hadoop的分布式计算特性使其在扩展性、容错性和可恢复性方面表现出色,是大数据处理的关键工具。
15 1
|
19天前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
56 0
|
20天前
|
存储 分布式计算 Hadoop
【Hadoop】Hadoop的三种集群模式
【4月更文挑战第9天】【Hadoop】Hadoop的三种集群模式
|
7月前
|
分布式计算 搜索推荐 Hadoop
03 Hadoop国内外应用案例介绍
03 Hadoop国内外应用案例介绍
30 0
|
5月前
|
分布式计算 Hadoop Java
Hadoop 跑wordcount demo
Hadoop 跑wordcount demo
25 0
|
5月前
|
存储 Linux
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
[hadoop3.x]HDFS之银行海量转账数据分层案例(八)
110 1
|
5月前
|
分布式计算 Hadoop 大数据
大数据hadoop练习___出租车MRWordCount案例
大数据hadoop练习___出租车MRWordCount案例
25 0

相关实验场景

更多