Apache Hadoop Yarn概述

简介: Apache YARN 是用于管理在网络中的多台机器上运行的分布式应用程序的处理层。YARN 允许您使用各种数据处理引擎对数据进行批处理、交互式和实时流处理。

这是CDP中Yarn使用手册系列的第一篇。

Apache YARN 是用于管理在网络中的多台机器上运行的分布式应用程序的处理层。YARN 允许您使用各种数据处理引擎对数据进行批处理、交互式和实时流处理。

1 Yarn特性

YARN 使您能够在 Hadoop 中管理资源和调度作业。YARN 提供以下功能:

多租户

您可以使用多个开源和专有的数据访问引擎对同一数据集进行批量、交互式和实时访问。多租户数据处理提高了企业的 Hadoop 投资回报。

集群利用率

您可以动态分配集群资源以提高资源利用率。

多种资源类型

您可以使用多种资源类型,例如内存、CPU 和 GPU。

可扩展性

显着提高数据中心的处理容量。YARN 的 ResourceManager 专注于调度并在集群扩展到管理 PB 数据的数千个节点时跟上步伐。

兼容性

为 Hadoop 1 开发的 MapReduce 应用程序在 YARN 上运行,不会中断现有流程。YARN 保持 API 与先前稳定版 Hadoop 的兼容性。

2. 了解 YARN 架构

YARN 允许您使用各种数据处理引擎对存储在 HDFS 或云存储(如 S3 ADLS)中的数据进行批处理、交互式和实时流处理。您可以针对不同的用例使用不同的处理框架,例如,您可以为 SQL 应用程序运行 Hive,为内存应用程序运行 Spark,为流式应用程序运行Flink/Storm,所有这些都在同一个 Hadoop 集群上。

YARN Hadoop 的功能扩展到数据中心内发现的新技术,以便您可以利用经济高效的线性规模存储和处理。它为独立软件供应商和开发人员提供了一个一致的框架,用于编写在 Hadoop 中运行的数据访问应用程序。

YARN 架构和工作流程

YARN 具有三个主要组件:

·      ResourceManager:使用 Scheduler ApplicationManager 分配集群资源。

·      ApplicationMaster:通过指示 NodeManager 为作业创建或销毁容器来管理作业的生命周期。一个作业只有一个 ApplicationMaster

·      NodeManager:通过在集群节点中创建和销毁容器来管理特定节点中的作业或工作流。

图片 1.png

                             

原文链接:https://docs.cloudera.com/cdp-private-cloud-base/latest/concepts-compute.html

目录
相关文章
|
1月前
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
76 5
|
1月前
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
36 4
|
1月前
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
152 5
|
1月前
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
90 4
|
1月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
77 4
|
2月前
|
资源调度 分布式计算 Hadoop
YARN(Hadoop操作系统)的架构
本文详细解释了YARN(Hadoop操作系统)的架构,包括其主要组件如ResourceManager、NodeManager和ApplicationMaster的作用以及它们如何协同工作来管理Hadoop集群中的资源和调度作业。
134 3
YARN(Hadoop操作系统)的架构
|
2月前
|
资源调度 分布式计算 Hadoop
使用YARN命令管理Hadoop作业
本文介绍了如何使用YARN命令来管理Hadoop作业,包括查看作业列表、检查作业状态、杀死作业、获取作业日志以及检查节点和队列状态等操作。
54 1
使用YARN命令管理Hadoop作业
|
1月前
|
存储 分布式计算 NoSQL
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
大数据-144 Apache Kudu 基本概述 数据模型 使用场景
36 0
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop YARN资源管理-容量调度器(Yahoo!的Capacity Scheduler)
详细讲解了Hadoop YARN资源管理中的容量调度器(Yahoo!的Capacity Scheduler),包括队列和子队列的概念、Apache Hadoop的容量调度器默认队列、队列的命名规则、分层队列、容量保证、队列弹性、容量调度器的元素、集群如何分配资源、限制用户容量、限制应用程序数量、抢占申请、启用容量调度器以及队列状态管理等方面的内容。
81 3
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop YARN资源管理-公平调度器(Fackbook的Fair Scheduler)
详细介绍了Hadoop YARN资源管理中的公平调度器(Fair Scheduler),包括其概述、配置、队列结构、以及如何将作业提交到指定队列,展示了公平调度器如何通过分配文件(fair-scheduler.xml)来控制资源分配,并提供了配置示例和如何通过命令行提交作业到特定队列的方法。
152 0
Hadoop YARN资源管理-公平调度器(Fackbook的Fair Scheduler)