YARN 作业提交全流程|学习笔记

简介: 快速学习 YARN 作业提交全流程

开发者学堂课程【Hadoop 分布式资源管理框架 YARN:YARN 作业提交全流程】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/95/detail/1566


YARN 作业提交全流程


一、作业提交过程之 YARN

(1)作业提交

第1步:Client 调用 job.waitForCompletion 方法,向整个集群提交 MapReduce 作业。

第2步:Client 向 RM 申请一个作业 id。

第3步:RM 给 Client 返回该 job 资源的提交路径和作业 id。

第4步:Client 提交 jar 包、切片信息和配置文件到指定的资源提交路径。

第5步:Client 提交完资源后,向 RM 申请运行 MrAppMaster。

(2)作业初始化

第6步:当 RM 收到 Client 的请求后,将该job添加到容量调度器中。

第7步:某一个空闲的 NM 领取到该 Job。。

第8步:该 NM 创建 Container,并产生 MRAppmaster。

第9步:下载 Client 提交的资源到本地。。

(3)任务分配

第10步:MrAppMaster 向 RM 申请运行多个 MapTask 任务资源。

第11步:RM 将运行 MapTask 任务分配给另外两个 NodeManager, 另两个 NodeManager 分别领取任务并创建容器。

(4)任务运行

第12步: MR 向两个接收到任务的 NodeManager 发送程序启动脚本,这两个NodeManager 分别启动 MapTask,MapTask 对数据分区排序。

第13步: MrAppMaster 等待所有 MapTask 运行完毕后,向 RM 申请容器,运行ReduceTask第14步:ReduceTask 向 MapTask 获取相应分区的数据。

第15步:程序运行完毕后,MR 会向 RM 申请注销自己。

(5)进度和状态更新

YARN中 的任务将其进度和状态(包括 counter)返回给应用管理器,客户端每秒(通过 mapreduce.client. progressmonitor.pllinterval 设置)向应用管理器请求进度更新,展示给用户。

(6)作业完成

除了向应用管理器请求作业进度外,客户端每 5 分钟都会通过调用waitForCompletion()  来检查作业是否完成。时间间隔可以通过mapreduce.client.completion.pollinterval 来设置。作业完成之后,应用管理器和Container 会清理工作状态。作业的信息会被作业历史服务器存储以备之后用户核查。

 

二、作业提交过程之 MapReduce

图片7.png

相关文章
|
9月前
|
分布式计算 资源调度 监控
Hadoop学习笔记(四)之YARN
Hadoop学习笔记(四)之YARN
|
1月前
|
资源调度 Kubernetes Java
Flink--day02、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
Flink--day022、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
294 5
|
8月前
|
资源调度 Kubernetes Java
Flink--2、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
Flink--2、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
|
1月前
|
资源调度 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.14 安装YARN+MR
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
125 0
Hadoop学习笔记(HDP)-Part.14 安装YARN+MR
|
8月前
|
SQL 资源调度 大数据
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?
大数据平台 CDP 中如何配置 hive 作业的 YARN 队列以确保SLA?
|
8月前
|
SQL 资源调度 安全
开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致作业失败
开启 Kerberos 安全的大数据环境中,Yarn Container 启动失败导致作业失败
|
11月前
|
资源调度 调度 容器
Yarn 的工作原理、流程【重要】
Yarn 的工作原理、流程【重要】
96 0
|
SQL 分布式计算 资源调度
Spark on Yarn Job的执行流程简介
2017-12-19-Hadoop2.0架构及HA集群配置(1) 2017-12-24-Hadoop2.0架构及HA集群配置(2) 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Spark的异同 2017-12-28-Spark-HelloWorld(Spark开发环境搭建)
|
资源调度 程序员 网络安全
Flink on Yarn三部曲之三:提交Flink任务
Flink on Yarn在使用的时候分为两种模式,Job Mode和Session Mode,一起来体验这两种模式
320 2
Flink on Yarn三部曲之三:提交Flink任务
|
资源调度 分布式计算 Hadoop
CDH 搭建_ Hadoop _ Yarn 搭建|学习笔记
快速学习 CDH 搭建_ Hadoop _ Yarn 搭建
177 0
CDH 搭建_ Hadoop _ Yarn 搭建|学习笔记