Hadoop本地运行模式(Grep案例和WordCount 案例)

简介: Hadoop本地运行模式(Grep案例和WordCount 案例)

前言

Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式

运行官方Grep案例

提供一些文本文件, grep可以从中找到想要匹配的文本

1. 在当前用户主(HOME)目录下面创建一个input目录

[ytsky@hadoop101 ~]$ mkdir input

2.将Hadoop的xml配置文件复制到input

[ytsky@hadoop101 ~]$ cp $HADOOP_HOME/etc/hadoop/*.xml input

3. 执行share目录下的MapReduce程序

[ytsky@hadoop101 ~]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

运行命令解释:

hadoop:hadoop启动命令

jar:以jar包运行方式运行

share/hadoop/mapreduce-examles-2.7.2.jar  :这是hadoop官网提供的案例目录

grep:启动grep案例

input:输入目录

output:输出目录

需要注意:输出目录默认是由程序创建的,如果存在output输出目录,则程序会报错

你需要删除已存在的输出目录(rm -rf output)

'dfs[a-z.]+':正则表达式 表示已dfs开头所有匹配项,可无限累加

4. 查看输出结果

运行后,会在主目录中生成一个output目录,该目录存放运行结果

part-r-0000: 表示运行结果 ,其中r表示reduce运行结果,0000表示结果编号

[ytsky@hadoop101 output]$ cat part-r-00000

只有一个运行结果。

运行官方WordCount 案例

这例子是对文件中某些单词进行统计数。

1.在hadoop-2.7.2文件下面创建一个wcinput目录

[ytsky@hadoop101 ~]$ mkdir wcinput

2.在wcinput文件下创建一个wc.input文件

[ytsky@hadoop101 ~]$ cd wcinput

[ytsky@hadoop101 wcinput]$ touch wc.input

3编辑wc.input文件

[ytsky@hadoop101 wcinput]$ vi wc.input

在文件中输入如下内容

hadoop yarn ytsky

mapreduce yarn

ytsky hadoop

hadoop

保存退出(:wq)

4.执行程序

[ytsky@hadoop101 ~]$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput

注意: 本地模式下运行程序分析,会显示一个运行进程(RunJar),当运行完成后该进程就会消失

5. 查看结果

[ytsky@hadoop101 ~]$ cat wcoutput/part-r-00000


相关文章
|
1月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
142 6
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
64 2
|
5天前
|
分布式计算 资源调度 Hadoop
【赵渝强老师】部署Hadoop的本地模式
本文介绍了Hadoop的目录结构及本地模式部署方法,包括解压安装、设置环境变量、配置Hadoop参数等步骤,并通过一个简单的WordCount程序示例,演示了如何在本地模式下运行MapReduce任务。
|
1月前
|
SQL 存储 分布式计算
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行
41 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
88 3
|
1月前
|
分布式计算 NoSQL Java
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
Hadoop-32 ZooKeeper 分布式锁问题 分布式锁Java实现 附带案例和实现思路代码
41 2
|
1月前
|
SQL 存储 数据管理
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
Hadoop-15-Hive 元数据管理与存储 Metadata 内嵌模式 本地模式 远程模式 集群规划配置 启动服务 3节点云服务器实测
54 2
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
46 1
|
2月前
|
分布式计算 Hadoop Devops
Hadoop集群配置https实战案例
本文提供了一个实战案例,详细介绍了如何在Hadoop集群中配置HTTPS,包括生成私钥和证书文件、配置keystore和truststore、修改hdfs-site.xml和ssl-client.xml文件,以及重启Hadoop集群的步骤,并提供了一些常见问题的故障排除方法。
73 3
Hadoop集群配置https实战案例
|
3月前
|
存储 分布式计算 Hadoop
Hadoop 运行的三种模式
【8月更文挑战第31天】
321 0

相关实验场景

更多