YARN与MapReduce的配置与使用

简介: YARN与MapReduce的配置与使用

0x00 教程内容


  1. YARN的初始化配置
  2. 使用YARN跑第一个例子
  3. 如何找到官网例子


0x01 YARN的初始化配置


1. 配置 yarn-site.xml

a. 进入hadoop配置文件目录

cd /home/hadoop-sny/bigdata/hadoop-2.7.5/etc/hadoop

b. 添加配置信息:

vi vi yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
  <description>表示ResourceManager安装的主机</description>
</property>
<property>
  <name>yarn.resourcemanager.address</name>
  <value>master:8032</value>
  <description>表示ResourceManager监听的端口</description>
</property>
<property>
  <name>yarn.nodemanager.local-dirs</name>
  <value>/home/hadoop-sny/bigdata/yarn/local-dir1,/home/hadoop-sny/bigdata/yarn/local-dir2</value>
  <description>表示nodeManager中间数据存放的地方</description>
</property>
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>1630</value>
  <description>表示这个NodeManager管理的内存大小</description>
</property>
<property>
  <name>yarn.nodemanager.resource.cpu-vcores</name>
  <value>2</value>
  <description>表示这个NodeManager管理的cpu个数</description>
</property>


2. 同步配置文件到slave1、slave2节点

a. 执行下面的命令,使得slave1和slave2的配置同步master上的配置:


scp yarn-site.xml hadoop-sny@slave1:~/bigdata/hadoop-2.7.5/etc/hadoop/

scp yarn-site.xml hadoop-sny@slave2:~/bigdata/hadoop-2.7.5/etc/hadoop/


image.png


b. 在master创建配置nodeManager中间数据存放的地方,并同步到slave1、slave2(此步骤可以省略,其实目录也会自己创建)


mkdir -p /home/hadoop-sny/bigdata/yarn/local-dir1

mkdir -p /home/hadoop-sny/bigdata/yarn/local-dir2


scp -r ~/bigdata/yarn/local-dir1 ~/bigdata/yarn/local-dir2 hadoop-sny@slave1:~/bigdata/

scp -r ~/bigdata/yarn/local-dir1 ~/bigdata/yarn/local-dir2 hadoop-sny@slave2:~/bigdata/


3. 校验YARN

a. 启动yarn

start-yarn.sh

b. 打开Windows的浏览器

http://master:8088

注意:

我在Windows系统里配置了域名映射,所以可以使用master

可以看到界面,说明配置成功,如不配域名映射,则使用ip也可以


image.png


0x02 使用YARN跑第一个例子


1. 配置YARN

a. 停止yarn并且在yarn-site.xml中增加配置:

stop-yarn.sh

vi yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
  <description>为map reduce应用打开shuffle 服务</description>
</property>


2. 配置MapReduce

a. 复制一份模板文件处理并在mapred-site.xml中增加配置

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
  <description>向yarn申请资源</description>
</property>


3. 同步配置文件与目录到slave1、slave2节点

a. 在master上执行


scp yarn-site.xml mapred-site.xml hadoop-sny@slave1:~/bigdata/hadoop-2.7.5/etc/hadoop
scp yarn-site.xml mapred-site.xml hadoop-sny@slave2:~/bigdata/hadoop-2.7.5/etc/hadoop


image.png


b. 启动YARN

start-yarn.sh

4. 验证MapReduce是否配置成功

a. 创建一个/user/hadoop-sny/input文件夹

hadoop fs -mkdir -p /user/hadoop-sny/input

image.png


b. 上传hadoop配置文件的文件夹内容到此目录(用于测试而已)

hadoop fs -put ~/bigdata/hadoop-2.7.5/etc/hadoop /user/hadoop-sny/input

image.png


image.png


d. 执行完后查看统计结果:

hadoop fs -cat /user/hadoop-sny/output/*

image.png


如执行多次,可使用下面语句先删除output文件夹:

hadoop fs -rm -r -f /user/hadoop-sny/output


0x03 如何找到官网例子


1. 链接路径

a. 打开github,然后搜索:hadoop,按照路径点进去即可


PS:官网内置例子链接

https://github.com/apache/hadoop/tree/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples


微信图片_20220616114316.png


b. 可以自行查看相关的例子学习


0xFF 总结


本教程配置了YARN,配置了MapReduce,注意理解配置里面的内容,都有注释,可以好好看看,留意一下配置的内存大小以及CPU核数,有利于后期深入探究YARN的核心原理。

本教程最后还给出了Hadoop官方例子的路径,希望大家在学习的时候,能够结合着官网深入理解,要知道是这么做,知道在做什么。


相关文章
|
8月前
|
资源调度 分布式计算 调度
27 MAPREDUCE与YARN
27 MAPREDUCE与YARN
44 0
|
9月前
|
分布式计算 资源调度 大数据
黑马程序员-大数据入门到实战-MapReduce & YARN入门
黑马程序员-大数据入门到实战-MapReduce & YARN入门
107 0
|
1月前
|
分布式计算 资源调度 数据处理
YARN支持哪些非基于MapReduce的计算模型?
【6月更文挑战第19天】YARN支持哪些非基于MapReduce的计算模型?
36 11
|
8天前
|
缓存 资源调度 JavaScript
秒懂Yarn:从安装到配置的全流程详解
**Yarn**是Facebook推出的JavaScript包管理器,旨在提供更快、更安全的依赖管理。它通过并行安装、离线模式、版本锁定和友好的命令行界面提升效率。要安装Yarn,可以使用npm、Homebrew或Chocolatey。基本命令包括初始化项目(`yarn init`)、安装/移除/升级依赖(`yarn add/remove/upgrade`)。配置Yarn涉及设置`.yarnrc`文件,如更改registry。通过`yarn.lock`文件保证依赖一致性。文章还提供了使用Yarn进行API测试和项目管理的实战案例。
14 0
|
2月前
|
SQL 分布式计算 资源调度
Hadoop Yarn 配置多队列的容量调度器
配置Hadoop多队列容量调度器,编辑`capacity-scheduler.xml`,新增`hive`队列,`default`队列占总内存40%,最大60%;`hive`队列占60%,最大80%。配置包括队列容量、用户权限和应用生存时间等,配置后使用`yarn rmadmin -refreshQueues`刷新队列,无需重启集群。多队列配置可在Yarn WEB界面查看。
|
1月前
|
资源调度 JavaScript iOS开发
yarn的安装与配置(Windows/macOS)
yarn的安装与配置(Windows/macOS)
103 0
|
2月前
|
资源调度 前端开发 JavaScript
nvm,npm,yarn相关指令,前端配置准备
nvm,npm,yarn相关指令,前端配置准备
26 1
|
2月前
|
消息中间件 SQL 资源调度
实时计算 Flink版产品使用合集之 Flink on YARN 中使用滚动日志时配置不生效如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
2月前
|
资源调度 前端开发 JavaScript
够啦!前端Yarn配置和命令
够啦!前端Yarn配置和命令
58 0
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop【环境搭建 02】【hadoop-3.1.3 单机版YARN】(配置、启动及验证)
Hadoop【环境搭建 02】【hadoop-3.1.3 单机版YARN】(配置、启动及验证)
40 0

相关实验场景

更多