Hadoop Yarn 核心调优参数-阿里云开发者社区

Hadoop Yarn 核心调优参数

2024-05-26 667

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 这是一个关于测试集群环境的配置说明，包括3台服务器（master, slave1, slave2）运行CentOS 7.5，每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3，JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置，以及容器的内存和CPU限制。配置完成后，需要重启Hadoop并检查yarn配置。

@[toc]

测试集群环境说明

服务器介绍

机器名称	内网IP	内存	CPU	承载节点
master	192.168.10.10	4	4	NodeManager、DataNode、NameNode
slave1	192.168.10.11	4	4	NodeManager、DataNode、ResourceManager
slave2	192.168.10.12	4	4	NodeManager、DataNode、SecondaryNameNode

操作系统均为：CentOS 7.5

组件介绍

jdk1.8
hadoop 3.1.3

Yarn 核心配置参数

1. 调度器选择

这里选用默认调度器（容量调度器）。

<property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

2. ResourceManager 调度器处理线程数量设置

ResourceManager 处理调度器请求的线程数量，默认 50；

如果提交的任务数大于 50，可以增加该值，但是不能超过总线程数量。

在当前测试环境中，我们共配置了 3 台服务器，4 核 CPU，共有 12 线程，但时不能直接设置为 12，而应该设置为 8（三分之二），剩余资源保障其它应用程序的正常运行。

<property>
    <name>yarn.resourcemanager.scheduler.client.thread-count</name>
    <value>8</value>
</property>

3. 是否启用节点功能的自动检测设置

顾名思义，就是自动检测当前系统配置，自动进行资源配置，默认为 false。

在该系统内没有其它应用程序运行的情况下，可以开启该参数。

<property>
    <name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
    <value>false</value>
</property>

4. 是否将逻辑处理器当作物理核心处理器

指定逻辑处理器（虚拟核数）是否应该被视为独立的核心资源，默认为 false。

物理核心处理器可以给集群带来更强的处理性能，而逻辑处理器能够提供更多的并发。

<property>
    <name>yarn.nodemanager.resource.count-logical-processors-as-cores</name>
    <value>false</value>
</property>

5. 设置物理核心到虚拟核心的转换乘数

默认情况下，乘数为 1.0，这意味着一个物理核心会被视为一个虚拟核心。

如果希望将一个物理核心映射为多个虚拟核心，可以将这个值调整为大于 1 的值。

可以根据应用程序需求、资源利用率以及性能测试结果来决定是否调整这个乘数。

<property>
    <name>yarn.nodemanager.resource.pcores-vcores-multiplier</name>
    <value>1.0</value>
</property>

6. 设置 NodeManager 使用的内存量

用于指定每个 NodeManager 节点可以使用的内存量，以兆字节（MB）为单位，默认 8G，修改为单台机器对应的内存量。

<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>4096</value>
</property>

7. 设置 NodeManager 节点虚拟核心数量

用于指定每个 NodeManager 节点可以使用的虚拟核心数量（vCores），默认为 8 个，修改为单台机器对应的物理核心数量。

<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>4</value>
</property>

8. 设置每个容器的最小与最大内存

用于设置每个容器（task或应用程序的运行实例）所能够分配到的最小与最大内存量。

最小内存默认为 1024 MB；

最大内存默认为 8192 MB，推荐设置为系统最大内存的一半；

<!-- 容器最小内存-->
<property>
    <name>yarn.scheduler.minimum-allocation-mb</name>
    <value>1024</value>
</property>

<!-- 容器最大内存-->
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value>
</property>

9. 设置每个容器的最小与最大虚拟CPU核心

设置每个容器（任务或应用程序的运行实例）所能够分配到的最小与最大 CPU 虚拟核心数（vCores）。

最小虚拟核心数默认为 1 个；

最大虚拟核心数默认为 4 个，推荐设置为系统最大物理核心的一半；

<!-- 容器最小虚拟核心数 -->
<property>
    <name>yarn.scheduler.minimum-allocation-vcores</name>
    <value>1</value>
</property>

<!-- 容器最大虚拟核心数 -->
<property>
    <name>yarn.scheduler.maximum-allocation-vcores</name>
    <value>2</value>
</property>

10. 是否开启虚拟内存检查

用于指定是否启用虚拟内存检查来限制每个容器使用的虚拟内存量。

默认为 true，NodeManager 将会在分配容器资源时，考虑每个容器使用的虚拟内存量。

如果一个容器的虚拟内存使用量超过了预先配置的限制，NodeManager 会采取措施来处理这种情况，通常是终止或杀死该容器。

在这里我调整为 false。

<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

11. 设置虚拟内存与物理内存比例

用于设置虚拟内存与物理内存之间的比率，默认为 2.1 倍。

这个参数的目的是限制应用程序可以使用的虚拟内存量，以避免某个应用程序无限制地占用虚拟内存资源，导致其他任务和应用程序受影响。

<property>
    <name>yarn.nodemanager.vmem-pmem-ratio</name>
    <value>2.1</value>
</property>

配置信息查看

完成配置后，分发 yarn 文件，重启 Hadoop，查看 yarn 配置信息：