MapReduuce配置&YARN集群部署

简介: MapReduuce配置&YARN集群部署

1.部署集群需要做的操作

修改YARNMapReduce相关配置文件

仅修改YARN的相关进程(MapReduce无需启动如何进程,需要时会运行YARN内部(容器中))

2.查看YARN运行页面

 

Hadoop YARN分布式资源调度,会启动

ResourceManager进程作为管理节点

NodeManager进程作为工作节点

ProxyServerJobHistoryServer这两个辅助节点

image.png

 

那么,MapReduce

MapReduce运行在YARN容器内,无需启动独立进程

所以关于MapReduceYARN的部署,其实是两件事:

关于Maprdeuce:修改相关配置文件,但是没有进程可以启动

关于YARN:修改相关配置文件,并启动ResourceManagerNodeManager进程以及辅助进程(代理服务器,历史服务器)

 

 

 

部署说明:

image.png

 

 

集群规划:

3台服务器,其中node1配置较高

集群如下

image.png

 

MapReduce配置文件

$HADOOP_HOME/etc/hadoop文件夹内,修改mapred-env.sh文件,添加如下环境变量

image.png

 

mapred-site.xml文件添加

image.png

 

yarn-env.sh文件

image.png 

 

yarn-site.xml

核心配置

image.png

额外配置

image.png

 

配置好文件之后,和之前的HDFS一样分发文件到root2root3,分发到其他的服务器节点中

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml root2:`pwd`/

scp mapred-env.sh mapred-site.xml yarn-env.sh yarn-site.xml root3:`pwd`/

分发完成配置文件,就可以启动YARN的相关进程了

 

集群启动命令介绍:

一键启动YARN集群:$HADOOP_HOME/sbin/start-yarn.sh

会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定哪台机器上启动resourcemanager

会基于workers文件配置的主机启动NodeManager

一键停止YARN集群:$HADOOP_HOME/sbin/stop-yarn.sh

 

在当前机器,单独启动或停止进程

$HADOOP_HOME/bin/yarn --daemon start|stop resourcemanager | nodemanager | proxyserver

startstop决定启动和停止

 

历史服务器启动和停止

$HADOOP_HOME/bin/mapred --daemon start | stop | historyserver

 

启动YARN集群

root1服务器,以hadoop用户执行

1.首先执行:$HADOOP_HOME/sbin/start-yarn.sh

image.png

 

image.png

 

之后执行$HADOOP_HOME/bin/mapred --daemon start historyserver(历史服务器)

image.png

 

访问root1:8088页面

image.png

 

 

目录
相关文章
|
9天前
|
消息中间件 资源调度 关系型数据库
如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理
本文介绍了如何在Flink on YARN环境中配置Debezium CDC 3.0,以实现实时捕获数据库变更事件并将其传输到Flink进行处理。主要内容包括安装Debezium、配置Kafka Connect、创建Flink任务以及启动任务的具体步骤,为构建实时数据管道提供了详细指导。
28 9
|
1月前
|
资源调度
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
37 2
Ubuntu22.04静态ip配置+yarn build后显示内存超限,变异失败
|
1月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
146 5
|
1月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
84 4
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
72 4
|
3月前
|
资源调度 关系型数据库 MySQL
【Flink on YARN + CDC 3.0】神操作!看完这篇教程,你也能成为数据流处理高手!从零开始,一步步教会你在Flink on YARN模式下如何配置Debezium CDC 3.0,让你的数据库变更数据瞬间飞起来!
【8月更文挑战第15天】随着Apache Flink的普及,企业广泛采用Flink on YARN部署流处理应用,高效利用集群资源。变更数据捕获(CDC)工具在现代数据栈中至关重要,能实时捕捉数据库变化并转发给下游系统处理。本文以Flink on YARN为例,介绍如何在Debezium CDC 3.0中配置MySQL连接器,实现数据流处理。首先确保YARN上已部署Flink集群,接着安装Debezium MySQL连接器并配置Kafka Connect。最后,创建Flink任务消费变更事件并提交任务到Flink集群。通过这些步骤,可以构建出从数据库变更到实时处理的无缝数据管道。
286 2
|
4月前
|
缓存 资源调度 JavaScript
秒懂Yarn:从安装到配置的全流程详解
**Yarn**是Facebook推出的JavaScript包管理器,旨在提供更快、更安全的依赖管理。它通过并行安装、离线模式、版本锁定和友好的命令行界面提升效率。要安装Yarn,可以使用npm、Homebrew或Chocolatey。基本命令包括初始化项目(`yarn init`)、安装/移除/升级依赖(`yarn add/remove/upgrade`)。配置Yarn涉及设置`.yarnrc`文件,如更改registry。通过`yarn.lock`文件保证依赖一致性。文章还提供了使用Yarn进行API测试和项目管理的实战案例。
235 0
|
6月前
|
SQL 分布式计算 资源调度
Hadoop Yarn 配置多队列的容量调度器
配置Hadoop多队列容量调度器,编辑`capacity-scheduler.xml`,新增`hive`队列,`default`队列占总内存40%,最大60%;`hive`队列占60%,最大80%。配置包括队列容量、用户权限和应用生存时间等,配置后使用`yarn rmadmin -refreshQueues`刷新队列,无需重启集群。多队列配置可在Yarn WEB界面查看。
97 4
|
5月前
|
资源调度 JavaScript iOS开发
yarn的安装与配置(Windows/macOS)
yarn的安装与配置(Windows/macOS)
565 0
|
6月前
|
消息中间件 SQL 资源调度
实时计算 Flink版产品使用合集之 Flink on YARN 中使用滚动日志时配置不生效如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。