YARN On Mapreduce搭建与wordCount案例实现

简介: YARN On Mapreduce搭建与wordCount案例实现

文章目录

1.前言

YARN的基本思想是将资源管理RM,和作业调度、监控功能拆分成单独的守护进程。这个思想中拥有一个全局的资源管理器以及每个应用的MASTER,AM。每一个应用 都是单个作业或者一个DAG作业。

架构图:

facee3ebe11a4d0aa4c1a385644f246d.png

1.YARN 集群搭建

1.1 ResourceManager High Availability 架构图

ea5e5994145d4a39b0fdc96b86a65b28.png

1.2 配置文件

mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

 <property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

yarn-site.xml

<property>

  <name>yarn.nodemanager.aux-services</name>

  <value>mapreduce_shuffle</value>

     </property>

  <property>

    <name>yarn.resourcemanager.ha.enabled</name>

    <value>true</value>

  </property>

  <property>

    <name>yarn.resourcemanager.zk-address</name>

    <value>node02:2181,node03:2181,node04:2181</value>

  </property>

  <property>

    <name>yarn.resourcemanager.cluster-id</name>

    <value>mashibing</value>

  </property>

<属性>

<name>yarn.resourcemanager.ha.rm-ids</name>

<价值>RM1,RM2</价值>

</财产>

<属性>

<name>yarn.resourcemanager.hostname.rm1</name>

<值>节点03</值>

</财产>

<属性>

<name>yarn.resourcemanager.hostname.rm2</name>

<值>节点04</值>

</财产>


配置节点分发到其他节点。

1.3 启动服务和rm

启动yarn

start-yarn.sh

启动rm资源管理

yarn-daemon.sh 启动资源管理器

访问页面查看集群状态

http://node03:8088

http://node04:8088

87cc4220f4e24196967d77d2cfe288b1.png

2.运行官方的WC案例

/opt/bigdata/hadoop-2.6.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar

2.1 运行jar

准备一个data.txt文件

你好词

精英你好

你好词

哈多普纱线

蜂巢 HBase

蜂巢浩普

# 创建目录

HDFS DFS -MKDIR -p /data/wc/input

#上传文件

hdfs dfs -D dfs.blocksize=1048576  -put data.txt  /data/wc/input

# 运行

Hadoop jar Hadoop-mapreduce-examples-2.6.5.jar wordcount /data/wc/input /data/wc/output

日志

hadoop jar  hadoop-mapreduce-examples-2.6.5.jar   wordcount   /data/wc/input   /data/wc/output

23/04/23 06:50:41 INFO input.FileInputFormat: Total input paths to process : 1

23/04/23 06:50:41 INFO mapreduce.JobSubmitter: number of splits:1

23/04/23 06:50:41 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1682257192920_0002

23-04-23 06:50:41 信息YarnClientImpl:已提交申请application_1682257192920_0002

23/04/23 06:50:41 信息地图减少。作业:用于跟踪作业的网址:http://node03:8088/proxy/application_1682257192920_0002/

23/04/23 06:50:41 信息地图减少。作业:正在运行 作业:job_1682257192920_0002

23/04/23 06:50:53 信息地图减少。作业:在优步模式下运行的作业job_1682257192920_0002:假

23-04-23 06:50:53 信息地图减少。作业:地图 0% 减少 0%

23-04-23 06:51:02 信息地图减少。作业:地图 100% 减少 0%

23-04-23 06:51:10 信息地图减少。作业:地图 100% 减少 100%

23/04/23 06:51:11 信息地图减少。作业:作业job_1682257192920_0002成功完成

23/04/23 06:51:11 信息地图减少。职位:计数器:49

查看输出

# 查看输出

[root@node01 mapreduce]# hdfs dfs -ls /data/wc/output

Found 2 items

-rw-r--r-- 2 根超组 0 2023-04-23 06:51 /data/wc/output/_SUCCESS

-rw-r--r-- 2 根超群 62 2023-04-23 06:51 /data/wc/output/part-r-00000

[root@node01 mapreduce]# hdfs dfs -cat /data/wc/output/part-r-00000

精英 1

哈多普 1

浩普 1

HBase1

你好 3

蜂巢 2

字 2

纱线 1


相关文章
|
资源调度 分布式计算 调度
27 MAPREDUCE与YARN
27 MAPREDUCE与YARN
69 0
|
分布式计算 资源调度 大数据
黑马程序员-大数据入门到实战-MapReduce & YARN入门
黑马程序员-大数据入门到实战-MapReduce & YARN入门
149 0
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
91 3
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
47 1
|
6月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
307 2
|
2月前
|
分布式计算 资源调度 Hadoop
在YARN集群上运行部署MapReduce分布式计算框架
主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架,包括准备数据、运行MapReduce任务、查看任务日志,并启动HistoryServer服务以便于日志查看。
63 0
|
3月前
|
分布式计算 Hadoop Java
Hadoop_MapReduce中的WordCount运行详解
MapReduce的WordCount程序在分布式系统中计算大数据集中单词出现的频率时,提供了一个可以复用和可伸缩的解决方案。它体现了MapReduce编程模型的强大之处:简单、可靠且将任务自动分布到一个集群中去执行。它首先运行一系列的Map任务来处理原始数据,然后通过Shuffle和Sort机制来组织结果,最后通过运行Reduce任务来完成最终计算。因此,即便数据量非常大,通过该模型也可以高效地进行处理。
94 1
|
5月前
|
分布式计算 资源调度 数据处理
YARN支持哪些非基于MapReduce的计算模型?
【6月更文挑战第19天】YARN支持哪些非基于MapReduce的计算模型?
67 11
|
5月前
|
分布式计算 数据挖掘
通过mapreduce程序统计旅游订单(wordcount升级版)
通过mapreduce程序统计旅游订单(wordcount升级版)
|
5月前
|
分布式计算 大数据
mapreduce 实现带有ex前缀的词频统计wordcount 大作业
mapreduce 实现带有ex前缀的词频统计wordcount 大作业

相关实验场景

更多