YARN On Mapreduce搭建与wordCount案例实现

简介: YARN On Mapreduce搭建与wordCount案例实现

文章目录

1.前言

YARN的基本思想是将资源管理RM,和作业调度、监控功能拆分成单独的守护进程。这个思想中拥有一个全局的资源管理器以及每个应用的MASTER,AM。每一个应用 都是单个作业或者一个DAG作业。

架构图:

facee3ebe11a4d0aa4c1a385644f246d.png

1.YARN 集群搭建

1.1 ResourceManager High Availability 架构图

ea5e5994145d4a39b0fdc96b86a65b28.png

1.2 配置文件

mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

 <property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

yarn-site.xml

<property>

  <name>yarn.nodemanager.aux-services</name>

  <value>mapreduce_shuffle</value>

     </property>

  <property>

    <name>yarn.resourcemanager.ha.enabled</name>

    <value>true</value>

  </property>

  <property>

    <name>yarn.resourcemanager.zk-address</name>

    <value>node02:2181,node03:2181,node04:2181</value>

  </property>

  <property>

    <name>yarn.resourcemanager.cluster-id</name>

    <value>mashibing</value>

  </property>

<属性>

<name>yarn.resourcemanager.ha.rm-ids</name>

<价值>RM1,RM2</价值>

</财产>

<属性>

<name>yarn.resourcemanager.hostname.rm1</name>

<值>节点03</值>

</财产>

<属性>

<name>yarn.resourcemanager.hostname.rm2</name>

<值>节点04</值>

</财产>


配置节点分发到其他节点。

1.3 启动服务和rm

启动yarn

start-yarn.sh

启动rm资源管理

yarn-daemon.sh 启动资源管理器

访问页面查看集群状态

http://node03:8088

http://node04:8088

87cc4220f4e24196967d77d2cfe288b1.png

2.运行官方的WC案例

/opt/bigdata/hadoop-2.6.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar

2.1 运行jar

准备一个data.txt文件

你好词

精英你好

你好词

哈多普纱线

蜂巢 HBase

蜂巢浩普

# 创建目录

HDFS DFS -MKDIR -p /data/wc/input

#上传文件

hdfs dfs -D dfs.blocksize=1048576  -put data.txt  /data/wc/input

# 运行

Hadoop jar Hadoop-mapreduce-examples-2.6.5.jar wordcount /data/wc/input /data/wc/output

日志

hadoop jar  hadoop-mapreduce-examples-2.6.5.jar   wordcount   /data/wc/input   /data/wc/output

23/04/23 06:50:41 INFO input.FileInputFormat: Total input paths to process : 1

23/04/23 06:50:41 INFO mapreduce.JobSubmitter: number of splits:1

23/04/23 06:50:41 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1682257192920_0002

23-04-23 06:50:41 信息YarnClientImpl:已提交申请application_1682257192920_0002

23/04/23 06:50:41 信息地图减少。作业:用于跟踪作业的网址:http://node03:8088/proxy/application_1682257192920_0002/

23/04/23 06:50:41 信息地图减少。作业:正在运行 作业:job_1682257192920_0002

23/04/23 06:50:53 信息地图减少。作业:在优步模式下运行的作业job_1682257192920_0002:假

23-04-23 06:50:53 信息地图减少。作业:地图 0% 减少 0%

23-04-23 06:51:02 信息地图减少。作业:地图 100% 减少 0%

23-04-23 06:51:10 信息地图减少。作业:地图 100% 减少 100%

23/04/23 06:51:11 信息地图减少。作业:作业job_1682257192920_0002成功完成

23/04/23 06:51:11 信息地图减少。职位:计数器:49

查看输出

# 查看输出

[root@node01 mapreduce]# hdfs dfs -ls /data/wc/output

Found 2 items

-rw-r--r-- 2 根超组 0 2023-04-23 06:51 /data/wc/output/_SUCCESS

-rw-r--r-- 2 根超群 62 2023-04-23 06:51 /data/wc/output/part-r-00000

[root@node01 mapreduce]# hdfs dfs -cat /data/wc/output/part-r-00000

精英 1

哈多普 1

浩普 1

HBase1

你好 3

蜂巢 2

字 2

纱线 1


相关文章
|
6月前
|
资源调度 分布式计算 调度
27 MAPREDUCE与YARN
27 MAPREDUCE与YARN
34 0
|
7月前
|
分布式计算 资源调度 大数据
黑马程序员-大数据入门到实战-MapReduce & YARN入门
黑马程序员-大数据入门到实战-MapReduce & YARN入门
78 0
|
5月前
|
分布式计算 Hadoop Java
【集群模式】执行MapReduce程序-wordcount
【集群模式】执行MapReduce程序-wordcount
|
5月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
【本地模式】第一个Mapreduce程序-wordcount
|
6月前
|
存储 分布式计算 资源调度
提交MapReduce程序至YARN执行
提交MapReduce程序至YARN执行
45 0
|
8月前
|
存储 弹性计算 资源调度
阿里云E-MapReduce节点优雅下线-基于Yarn Node Labels特性
背景:阿里云E-MapReduce集群(简称EMR集群)部分节点需要下线迁移,但集群资源常年跑满,诉求是节点下线迁移过程中不影响任一任务执行。 本次方案基于Yarn Node Labels的特性进行资源隔离后下线。 下期对官网Graceful Decommission of YARN Nodes的方案进行验证,参考:https://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/GracefulDecommission.html。
|
9月前
|
分布式计算 资源调度 Hadoop
Hadoop基础学习---5、MapReduce概述和WordCount实操(本地运行和集群运行)、Hadoop序列化
Hadoop基础学习---5、MapReduce概述和WordCount实操(本地运行和集群运行)、Hadoop序列化
|
12月前
|
存储 分布式计算 资源调度
|
12月前
|
分布式计算 Ubuntu Hadoop
【集群模式】执行MapReduce程序-wordcount
因为是在hadoop集群下通过jar包的方式运行我们自己写的wordcount案例,所以需要传递的是 HDFS中的文件路径,所以我们需要修改上一节【本地模式】中 WordCountRunner类 的代码
|
12月前
|
分布式计算 Java Hadoop
【本地模式】第一个Mapreduce程序-wordcount
也就是在windows环境下通过hadoop-client相关jar包进行开发的,我们只需要通过本地自己写好MapReduce程序即可在本地运行。

相关实验场景

更多