提交MapReduce程序至YARN执行

简介: 提交MapReduce程序至YARN执行

在部署并成功启动YARN集群后,我们就可以在YARN上运行各类应用程序了

YARN作为资源调度管控框架,其本身提供资源供许多应用程序运行,常见的有:
MapReduce程序

Spark程序

Flink程序

 

 

提交MapReduce程序至YARN运行

Hadoop官方内置了一些预置的MapReduce程序代码,只需要通过命令即可使用

常见的有2MaoReduce内置程序

wordcount:单词计数程序

统计指定文件内各个单词出现的次数

pi:求圆周率

通过蒙特卡罗(统计模拟法)求圆周率

 

这些内置的示例MapReduce程序代码,都在:
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar这个文件内部

image.png 

可以通过命令hadoop jar 命令来运行它,提交MapReduce程序到YARN

语法:hadoop jar 程序文件 java类名 [程序参数]…[程序参数]

 

 

 

提交wordcount示例程序

单词技术示例程序的功能很简单:
给定数据输入的路径(HDFS),给定结果输出的路径(HDFS

将输入路径内的数据中的单词进行计数,将结果写到输出路径

可以先准备一份数据文件,之后上传到HDFS

image.png

将上面的内容保存到Linux中命名为words.txt,并上传到HDSF

hadoop fs -mkdir -p /input/wordcount

hadoop fs -mkdir /output

hadoop fs -put word.txt /input/wordcount/

 

执行以下命令,提交示例MapReduce程序WordCountYARN中执行

image.png 

参数wordcpunt,表示运行jar包中的单词计数程序(java class

参数1是数据输入路径(hdfs://root1:8020/input/wordcount/

参数2是结果输出路径(hdfs://root1:8020/output/wc

 

提交程序后,可以在YARNWEB UI页面看到运行中的程序(http://root1:8088)

image.png

 

执行完之后,可以在HDFS中查看结果

image.png

_SUCCESS文件是标记文件,表示运行成功

part-r-00000,是结果文件,结果存储在以part开头的文件中

 

 

点击logs

image.png

可以看见详细的运行日志

配置文件中配置了日志聚合功能,并且设置了历史服务器,才能在网页中显示出来

image.png

 

 

 

提交圆周率示例程序

可以执行如下命令,使用蒙特卡罗算法模拟计算求PI(圆周率)

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.1.jar pi 3                     1000

参数pi表示要运行的java类,这里表示运行java类,这里表示运行jar包中的求pi程序

参数3,表示设置几个map任务

参数1000,表示模拟求PI的样本数(越大求的PI越准确,但是速度慢)

image.png

 

 

目录
相关文章
|
资源调度 JavaScript Windows
yarn install命令运行报错:无法将“yarn”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。...
yarn install命令运行报错:无法将“yarn”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。...
884 1
yarn install命令运行报错:无法将“yarn”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。...
|
2月前
|
消息中间件 分布式计算 Java
Linux环境下 java程序提交spark任务到Yarn报错
Linux环境下 java程序提交spark任务到Yarn报错
41 5
|
2月前
|
分布式计算 资源调度 Hadoop
在YARN集群上运行部署MapReduce分布式计算框架
主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架,包括准备数据、运行MapReduce任务、查看任务日志,并启动HistoryServer服务以便于日志查看。
63 0
|
3月前
|
分布式计算 资源调度 监控
MapReduce程序中的主要配置参数详解
【8月更文挑战第31天】
80 0
|
5月前
|
分布式计算 资源调度 数据处理
YARN支持哪些非基于MapReduce的计算模型?
【6月更文挑战第19天】YARN支持哪些非基于MapReduce的计算模型?
67 11
|
5月前
|
分布式计算 Java Hadoop
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
57 0
|
5月前
|
分布式计算 数据挖掘
通过mapreduce程序统计旅游订单(wordcount升级版)
通过mapreduce程序统计旅游订单(wordcount升级版)
|
6月前
|
资源调度 分布式计算 监控
剖析剖析我们的Yarn程序-Client提交
剖析剖析我们的Yarn程序-Client提交
50 0
|
6月前
|
分布式计算 Hadoop Java
【集群模式】执行MapReduce程序-wordcount
【集群模式】执行MapReduce程序-wordcount
|
6月前
|
分布式计算 Java Hadoop
IDEA 打包MapReduce程序到集群运行的两种方式以及XShell和Xftp过期的解决
IDEA 打包MapReduce程序到集群运行的两种方式以及XShell和Xftp过期的解决