YARN与MapReduce的配置与使用

简介: YARN与MapReduce的配置与使用

0x00 教程内容


  1. YARN的初始化配置
  2. 使用YARN跑第一个例子
  3. 如何找到官网例子


0x01 YARN的初始化配置


1. 配置 yarn-site.xml

a. 进入hadoop配置文件目录

cd /home/hadoop-sny/bigdata/hadoop-2.7.5/etc/hadoop

b. 添加配置信息:

vi vi yarn-site.xml

<property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
  <description>表示ResourceManager安装的主机</description>
</property>
<property>
  <name>yarn.resourcemanager.address</name>
  <value>master:8032</value>
  <description>表示ResourceManager监听的端口</description>
</property>
<property>
  <name>yarn.nodemanager.local-dirs</name>
  <value>/home/hadoop-sny/bigdata/yarn/local-dir1,/home/hadoop-sny/bigdata/yarn/local-dir2</value>
  <description>表示nodeManager中间数据存放的地方</description>
</property>
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>1630</value>
  <description>表示这个NodeManager管理的内存大小</description>
</property>
<property>
  <name>yarn.nodemanager.resource.cpu-vcores</name>
  <value>2</value>
  <description>表示这个NodeManager管理的cpu个数</description>
</property>


2. 同步配置文件到slave1、slave2节点

a. 执行下面的命令,使得slave1和slave2的配置同步master上的配置:


scp yarn-site.xml hadoop-sny@slave1:~/bigdata/hadoop-2.7.5/etc/hadoop/

scp yarn-site.xml hadoop-sny@slave2:~/bigdata/hadoop-2.7.5/etc/hadoop/


image.png


b. 在master创建配置nodeManager中间数据存放的地方,并同步到slave1、slave2(此步骤可以省略,其实目录也会自己创建)


mkdir -p /home/hadoop-sny/bigdata/yarn/local-dir1

mkdir -p /home/hadoop-sny/bigdata/yarn/local-dir2


scp -r ~/bigdata/yarn/local-dir1 ~/bigdata/yarn/local-dir2 hadoop-sny@slave1:~/bigdata/

scp -r ~/bigdata/yarn/local-dir1 ~/bigdata/yarn/local-dir2 hadoop-sny@slave2:~/bigdata/


3. 校验YARN

a. 启动yarn

start-yarn.sh

b. 打开Windows的浏览器

http://master:8088

注意:

我在Windows系统里配置了域名映射,所以可以使用master

可以看到界面,说明配置成功,如不配域名映射,则使用ip也可以


image.png


0x02 使用YARN跑第一个例子


1. 配置YARN

a. 停止yarn并且在yarn-site.xml中增加配置:

stop-yarn.sh

vi yarn-site.xml

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
  <description>为map reduce应用打开shuffle 服务</description>
</property>


2. 配置MapReduce

a. 复制一份模板文件处理并在mapred-site.xml中增加配置

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
  <description>向yarn申请资源</description>
</property>


3. 同步配置文件与目录到slave1、slave2节点

a. 在master上执行


scp yarn-site.xml mapred-site.xml hadoop-sny@slave1:~/bigdata/hadoop-2.7.5/etc/hadoop
scp yarn-site.xml mapred-site.xml hadoop-sny@slave2:~/bigdata/hadoop-2.7.5/etc/hadoop


image.png


b. 启动YARN

start-yarn.sh

4. 验证MapReduce是否配置成功

a. 创建一个/user/hadoop-sny/input文件夹

hadoop fs -mkdir -p /user/hadoop-sny/input

image.png


b. 上传hadoop配置文件的文件夹内容到此目录(用于测试而已)

hadoop fs -put ~/bigdata/hadoop-2.7.5/etc/hadoop /user/hadoop-sny/input

image.png


image.png


d. 执行完后查看统计结果:

hadoop fs -cat /user/hadoop-sny/output/*

image.png


如执行多次,可使用下面语句先删除output文件夹:

hadoop fs -rm -r -f /user/hadoop-sny/output


0x03 如何找到官网例子


1. 链接路径

a. 打开github,然后搜索:hadoop,按照路径点进去即可


PS:官网内置例子链接

https://github.com/apache/hadoop/tree/trunk/hadoop-mapreduce-project/hadoop-mapreduce-examples/src/main/java/org/apache/hadoop/examples


微信图片_20220616114316.png


b. 可以自行查看相关的例子学习


0xFF 总结


本教程配置了YARN,配置了MapReduce,注意理解配置里面的内容,都有注释,可以好好看看,留意一下配置的内存大小以及CPU核数,有利于后期深入探究YARN的核心原理。

本教程最后还给出了Hadoop官方例子的路径,希望大家在学习的时候,能够结合着官网深入理解,要知道是这么做,知道在做什么。


相关文章
|
2月前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
113 9
|
3月前
|
资源调度
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
50 2
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
|
3月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
205 5
|
3月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
170 4
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
103 4
|
5月前
|
资源调度 关系型数据库 MySQL
【Flink on YARN + CDC 3.0】神操作!看完这篇教程,你也能成为数据流处理高手!从零开始,一步步教会你在Flink on YARN模式下如何配置Debezium CDC 3.0,让你的数据库变更数据瞬间飞起来!
【8月更文挑战第15天】随着Apache Flink的普及,企业广泛采用Flink on YARN部署流处理应用,高效利用集群资源。变更数据捕获(CDC)工具在现代数据栈中至关重要,能实时捕捉数据库变化并转发给下游系统处理。本文以Flink on YARN为例,介绍如何在Debezium CDC 3.0中配置MySQL连接器,实现数据流处理。首先确保YARN上已部署Flink集群,接着安装Debezium MySQL连接器并配置Kafka Connect。最后,创建Flink任务消费变更事件并提交任务到Flink集群。通过这些步骤,可以构建出从数据库变更到实时处理的无缝数据管道。
417 2
|
4月前
|
分布式计算 资源调度 Hadoop
在YARN集群上运行部署MapReduce分布式计算框架
主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架,包括准备数据、运行MapReduce任务、查看任务日志,并启动HistoryServer服务以便于日志查看。
83 0
|
5月前
|
分布式计算 资源调度 监控
MapReduce程序中的主要配置参数详解
【8月更文挑战第31天】
208 0
|
7月前
|
分布式计算 资源调度 数据处理
YARN支持哪些非基于MapReduce的计算模型?
【6月更文挑战第19天】YARN支持哪些非基于MapReduce的计算模型?
79 11
|
6月前
|
缓存 资源调度 JavaScript
秒懂Yarn:从安装到配置的全流程详解
**Yarn**是Facebook推出的JavaScript包管理器,旨在提供更快、更安全的依赖管理。它通过并行安装、离线模式、版本锁定和友好的命令行界面提升效率。要安装Yarn,可以使用npm、Homebrew或Chocolatey。基本命令包括初始化项目(`yarn init`)、安装/移除/升级依赖(`yarn add/remove/upgrade`)。配置Yarn涉及设置`.yarnrc`文件,如更改registry。通过`yarn.lock`文件保证依赖一致性。文章还提供了使用Yarn进行API测试和项目管理的实战案例。
271 0

相关实验场景

更多