YARN简短的建筑

简介:

从Hadoop的0.23版本号,MapReduce进行了全面的彻底的变革。也就是我们今天看到的MapReduce 2.0或者我们也能够叫它YARN.

老版本号的JobTracker有两个基本的功能:资源管理、任务调度与监控。

Yarn的思路就是把这两个功能进行拆分,分别交给两个独立进程进行维护。这两个进程各自是ResourceManager进程和ApplicationMaster进程。

ApplicationMaster进程是每一个Job一个。

RM和NM两种角色构成了Hadoop集群的计算框架。

RM对全部Job的资源申请具有终于的决定权。

ApplicationMaster进程负责从RM获得资源,并与NM一起运行监控tasks.

MapReduce NextGen Architecture


RM有两个基本的组件:Sheduler、ApplicationManager

Sheduler负责给执行的程序分配资源(存储容量、队列等)。Sheduler仅仅管调度,无论应用程序的状态。即便是应用程序由于种种原因失败了。也和他没有关系。Sheduler依据每一个程序对资源的申请来进行调度。

resourceContainer是一个新抽象的概念,它是内存、CPU、磁盘、网络等资源的抽象集合,第一版仅仅支持了内存。

Sheduler以resourceContainer为单位进行资源分配。

Scheduler在设计上採用了插件的策略,CapacityScheduler 和FairScheduler 就是Scheduler的两个插件。

类似于Eclipse,扩展起来easy吧?

CapacityScheduler 支持分层次队列,该功能使得它能够分配很多其它的集群资源(分配那些未来会被释放的资源)

ApplicationsManager 负责接收提交的任务,找到运行任务的ApplicationMaster 的容器,在容器失败的情况下,对容器进行重新启动。

NodeManager 是个client程序,提供ApplicationsManager 执行须要的容器,并对所在机器的资源(CPU、内存、磁盘、网络)进行监控,并把监控结果汇报给 ResourceManager/Scheduler.

ApplicationMaster 从Scheduler获得资源。跟踪任务的状态和运行进度。

MRV2与老版本号的稳定版的MR兼容性,旧的版本号MR编译再来看看新的集群方案可以被执行。

版权声明:本文博客原创文章,博客,未经同意,不得转载。








本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/4658166.html,如需转载请自行联系原作者


相关文章
|
5月前
|
资源调度 前端开发 大数据
大数据的yarn和前端的yarn冲突解决
大数据的yarn和前端的yarn冲突解决
|
2月前
|
资源调度 Linux iOS开发
GPT栏目:yarn 安装
本文提供了在Windows、macOS和Linux操作系统上安装yarn的详细步骤,包括通过Windows安装程序、使用Homebrew在macOS上安装,以及通过包管理器在不同Linux发行版上安装yarn,并验证安装是否成功。
GPT栏目:yarn 安装
|
2月前
|
资源调度 分布式计算 算法
【揭秘Yarn调度秘籍】打破资源分配的枷锁,Hadoop Yarn权重调度全攻略!
【8月更文挑战第24天】在大数据处理领域,Hadoop Yarn 是一种关键的作业调度与集群资源管理工具。它支持多种调度器以适应不同需求,默认采用FIFO调度器,但可通过引入基于权重的调度算法来提高资源利用率。该算法根据作业或用户的权重值决定资源分配比例,权重高的可获得更多计算资源,特别适合多用户共享环境。管理员需在Yarn配置文件中启用特定调度器(如CapacityScheduler),并通过设置队列权重来实现资源的动态调整。合理配置权重有助于避免资源浪费,确保集群高效运行,满足不同用户需求。
35 3
|
5月前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
【4月更文挑战第4天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)
73 4
|
5月前
|
资源调度 分布式计算 监控
YARN【工作机制】
YARN【工作机制】
|
消息中间件 缓存 JavaScript
魔改xxl-job,彻底告别手动配置任务!
魔改xxl-job,彻底告别手动配置任务!
|
资源调度 分布式计算 监控
【Hadoop技术篇】YARN 作业执行流程
Yarn的作业流程是每个大数据领域的工作者都应该熟记于心的内容,今天我就来整理一下执行流程,记得点赞加收藏哦。 
238 0
【Hadoop技术篇】YARN 作业执行流程
|
缓存 资源调度 分布式计算
一幅长文细学华为MRS大数据开发(五)—— MapReduce和Yarn
本文中主要讲述大数据领域中最著名的批处理和离线处理计算框架——MapReduce,包括MapReduce的原理、流程、使用场景,以及Hadoop集群中负责统一的资源管理和调度的组件——Yarn。
593 0
|
资源调度 分布式计算 监控
不可不知的资源管理调度器Hadoop Yarn
Yarn(Yet Another Resource Negotiator)是一个资源调度平台,负责为运算程序如Spark、MapReduce分配资源和调度,不参与用户程序内部工作。同样是Master/Slave架构。
不可不知的资源管理调度器Hadoop Yarn
|
资源调度 监控 调度
YARN发展和架构组件功能详解
YARN的架构 YARN业务架构图 ResourceManager 全局资源管理器,整个集群只有一个,负责集群资源的统一管理和调动分配。
1536 0