YARN与MapReduce的配置与使用

简介: YARN与MapReduce的配置与使用

0x00 教程内容


  1. YARN的初始化配置
  2. 使用YARN跑第一个例子
  3. 如何找到官网例子


0x01 YARN的初始化配置


1. 配置 yarn-site.xml

a. 进入hadoop配置文件目录

cd /home/hadoop-sny/bigdata/hadoop-2.7.5/etc/hadoop

b. 添加配置信息:

vi vi yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
  <description>表示ResourceManager安装的主机</description>
</property>
<property>
  <name>yarn.resourcemanager.address</name>
  <value>master:8032</value>
  <description>表示ResourceManager监听的端口</description>
</property>
<property>
  <name>yarn.nodemanager.local-dirs</name>
  <value>/home/hadoop-sny/bigdata/yarn/local-dir1,/home/hadoop-sny/bigdata/yarn/local-dir2</value>
  <description>表示nodeManager中间数据存放的地方</description>
</property>
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>1630</value>
  <description>表示这个NodeManager管理的内存大小</description>
</property>
<property>
  <name>yarn.nodemanager.resource.cpu-vcores</name>
  <value>2</value>
  <description>表示这个NodeManager管理的cpu个数</description>
</property>


2. 同步配置文件到slave1、slave2节点

a. 执行下面的命令,使得slave1和slave2的配置同步master上的配置:


scp yarn-site.xml hadoop-sny@slave1:~/bigdata/hadoop-2.7.5/etc/hadoop/

scp yarn-site.xml hadoop-sny@slave2:~/bigdata/hadoop-2.7.5/etc/hadoop/


image.png


b. 在master创建配置nodeManager中间数据存放的地方,并同步到slave1、slave2(此步骤可以省略,其实目录也会自己创建)


mkdir -p /home/hadoop-sny/bigdata/yarn/local-dir1

mkdir -p /home/hadoop-sny/bigdata/yarn/local-dir2


scp -r ~/bigdata/yarn/local-dir1 ~/bigdata/yarn/local-dir2 hadoop-sny@slave1:~/bigdata/

scp -r ~/bigdata/yarn/local-dir1 ~/bigdata/yarn/local-dir2 hadoop-sny@slave2:~/bigdata/


3. 校验YARN

a. 启动yarn

start-yarn.sh

b. 打开Windows的浏览器

http://master:8088

注意:

我在Windows系统里配置了域名映射,所以可以使用master

可以看到界面,说明配置成功,如不配域名映射,则使用ip也可以


image.png


0x02 使用YARN跑第一个例子


1. 配置YARN

a. 停止yarn并且在yarn-site.xml中增加配置:

stop-yarn.sh

vi yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
  <description>为map reduce应用打开shuffle 服务</description>
</property>


2. 配置MapReduce

a. 复制一份模板文件处理并在mapred-site.xml中增加配置

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
  <description>向yarn申请资源</description>
</property>


3. 同步配置文件与目录到slave1、slave2节点

a. 在master上执行


scp yarn-site.xml mapred-site.xml hadoop-sny@slave1:~/bigdata/hadoop-2.7.5/etc/hadoop
scp yarn-site.xml mapred-site.xml hadoop-sny@slave2:~/bigdata/hadoop-2.7.5/etc/hadoop


image.png


b. 启动YARN

start-yarn.sh

4. 验证MapReduce是否配置成功

a. 创建一个/user/hadoop-sny/input文件夹

hadoop fs -mkdir -p /user/hadoop-sny/input

image.png


b. 上传hadoop配置文件的文件夹内容到此目录(用于测试而已)

hadoop fs -put ~/bigdata/hadoop-2.7.5/etc/hadoop /user/hadoop-sny/input

image.png


image.png


d. 执行完后查看统计结果:

hadoop fs -cat /user/hadoop-sny/output/*

image.png


如执行多次,可使用下面语句先删除output文件夹:

hadoop fs -rm -r -f /user/hadoop-sny/output


0x03 如何找到官网例子


1. 链接路径

a. 打开github,然后搜索:hadoop,按照路径点进去即可


PS:官网内置例子链接

https://github.com/apache/hadoop/tree/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples


微信图片_20220616114316.png


b. 可以自行查看相关的例子学习


0xFF 总结


本教程配置了YARN,配置了MapReduce,注意理解配置里面的内容,都有注释,可以好好看看,留意一下配置的内存大小以及CPU核数,有利于后期深入探究YARN的核心原理。

本教程最后还给出了Hadoop官方例子的路径,希望大家在学习的时候,能够结合着官网深入理解,要知道是这么做,知道在做什么。


相关文章
|
5月前
|
资源调度 分布式计算 调度
27 MAPREDUCE与YARN
27 MAPREDUCE与YARN
34 0
|
6月前
|
分布式计算 资源调度 大数据
黑马程序员-大数据入门到实战-MapReduce & YARN入门
黑马程序员-大数据入门到实战-MapReduce & YARN入门
77 0
|
4月前
|
分布式计算 资源调度 Hadoop
Hadoop【部署 02】hadoop-3.1.3 单机版YARN(配置、启动停止shell脚本修改及服务验证)
Hadoop【部署 02】hadoop-3.1.3 单机版YARN(配置、启动停止shell脚本修改及服务验证)
54 0
|
4月前
|
资源调度 分布式计算 Hadoop
Yarn【关于配置yarn-site.xml的注意事项】
Yarn【关于配置yarn-site.xml的注意事项】
|
5月前
|
资源调度 分布式计算 Hadoop
Yarn队列租户配置教程(实践记录)
Yarn队列租户配置教程(实践记录)
68 0
|
5月前
|
存储 分布式计算 资源调度
提交MapReduce程序至YARN执行
提交MapReduce程序至YARN执行
41 0
|
5月前
|
资源调度 分布式计算 Hadoop
MapReduuce配置&YARN集群部署
MapReduuce配置&YARN集群部署
41 0
|
6月前
|
资源调度 分布式计算 数据可视化
灵活、可用、高扩展,EasyMR 带来全新 Yarn 的队列管理功能及可视化配置
本文为大家介绍各类资源划分和队列管理方式,以及 EasyMR YARN 的队列管理功能,如何通过可视化界面管理,给广大用户带来更高效和便捷的队列管理体验。
48 0
|
6月前
|
SQL 资源调度 大数据
公共大数据集群中如何配置 YARN 的公平调度器和容量调度器
公共大数据集群中如何配置 YARN 的公平调度器和容量调度器
公共大数据集群中如何配置 YARN 的公平调度器和容量调度器
|
6月前
|
SQL 资源调度 分布式计算
聊聊 yarn 的三种资源调度器和公平调度器的最佳配置实践
聊聊 yarn 的三种资源调度器和公平调度器的最佳配置实践

相关实验场景

更多