Hadoop MapReduce 调优参数

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: 对于 Hadoop v3.1.3,针对三台4核4G服务器的MapReduce调优参数包括:`mapreduce.reduce.shuffle.parallelcopies`设为10以加速Shuffle,`mapreduce.reduce.shuffle.input.buffer.percent`和`mapreduce.reduce.shuffle.merge.percent`分别设为0.8以减少磁盘IO。

@[toc]

前言:

下列参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核,4G 内存。

MapReduce 调优参数详解

这个参数定义了在 Reduce 阶段同时进行的拷贝操作的数量,用于从 Map 任务获取数据,增加此值可以加速 Shuffle 阶段的执行。

<property>
    <name>mapreduce.reduce.shuffle.parallelcopies</name>
    <value>10</value>
</property>

默认值: 5
建议配置: 10


定义了在 Reduce 阶段输入数据缓冲区的百分比,缓冲更多的数据可以减少磁盘 IO。

<property>
    <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
    <value>0.8</value>
</property>

默认值: 0.7
建议配置: 0.8


定义了在 Reduce 阶段执行 merge 操作的阈值,决定何时将中间数据合并到较大的文件中以减少文件数目。

<property>
    <name>mapreduce.reduce.shuffle.merge.percent</name>
    <value>0.75</value>
</property>

默认值: 0.66
建议配置: 0.75


设置 Map 任务的 Java 堆内存大小。

<property>
    <name>mapreduce.map.java.opts</name>
    <value>-Xmx2048m</value>
</property>

默认值: 未指定(取决于集群的配置)。
建议配置:-Xmx2048m,将堆内存大小设置为 2G


设置 Reduce 任务的 Java 堆内存大小。

<property>
    <name>mapreduce.reduce.java.opts</name>
    <value>-Xmx2048m</value>
</property>

默认值: 未指定(取决于集群的配置)。
建议配置: -Xmx2048m,将堆内存大小设置为 2G


定义了每个 Map 任务使用的虚拟 CPU 核心数量。

<property>
    <name>mapreduce.map.cpu.vcores</name>
    <value>2</value>
</property>

默认值: 1
建议配置: 2


定义了每个 Reduce 任务使用的虚拟 CPU 核心数量。

<property>
    <name>mapreduce.reduce.cpu.vcores</name>
    <value>2</value>
</property>

默认值: 1
建议配置: 2


定义了 Map 任务最大的重试次数。

<property>
    <name>mapreduce.map.maxattempts</name>
    <value>4</value>
</property>

默认值: 4
建议配置: 4(默认值),保持默认值即可。


定义了 Reduce 任务最大的重试次数。

<property>
    <name>mapreduce.reduce.maxattempts</name>
    <value>4</value>
</property>

默认值: 4
建议配置: 4(默认值)。保持默认值即可。


定义了在 Reduce 阶段开始之前要完成的 Map 任务的比例。

<property>
    <name>mapreduce.job.reduce.slowstart.completedmaps</name>
    <value>0.2</value>
</property>

默认值: 0.05
建议配置: 0.2。由于集群只有三台机器,提高此值有助于确保在进行 Reduce 阶段之前有足够的数据可供处理。

定义了任务的最大执行时间(以毫秒为单位)。如果任务执行超过此时间,将被认为失败。

<property>
    <name>mapreduce.task.timeout</name>
    <value>600000</value>
</property>

默认值: 600000(10分钟)
建议配置: 600000(默认值)。可以根据任务的复杂性和数据量适当调整。

定义了在 Map 阶段进行排序操作时的内存缓冲区大小(以MB为单位)。

<property>
    <name>mapreduce.task.io.sort.mb</name>
    <value>200</value>
</property>

默认值: 100
建议配置: 200。适当增加这个值可以提高排序的性能,但不要超过可用内存的一半。


定义了在进行 Map 阶段排序操作时,达到多少内存使用比例时会触发溢写(spill)操作将数据写入磁盘。

<property>
    <name>mapreduce.map.sort.spill.percent</name>
    <value>0.85</value>
</property>

默认值: 0.8
建议配置: 0.85


对文件进行排序时一次合并的流数,这决定了打开文件句柄的数量。

<property>
    <name>mapreduce.task.io.sort.factor</name>
    <value>20</value>
</property>

默认值: 10
建议配置: 20

定义了每个 Map 任务使用的内存量(以MB为单位)。

<property>
    <name>mapreduce.map.memory.mb</name>
    <value>2048</value>
</property>

默认值: 1024
建议配置: 2048

定义了每个 Reduce 任务使用的内存量(以MB为单位)。

<property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>2048</value>
</property>

默认值: 1024
建议配置: 2048

MapReduce 调优参数一键复制

下列配置参数基于 hadoop v3.1.3 版本,共三台服务器,配置都为 4 核,4G 内存,上方可以看相关参数的详细解释。

    <property>
        <name>mapreduce.reduce.shuffle.parallelcopies</name>
        <value>10</value>
    </property>

    <property>
        <name>mapreduce.reduce.shuffle.input.buffer.percent</name>
        <value>0.8</value>
    </property>

    <property>
        <name>mapreduce.reduce.shuffle.merge.percent</name>
        <value>0.75</value>
    </property>

    <property>
        <name>mapreduce.map.java.opts</name>
        <value>-Xmx2048m</value>
    </property>

    <property>
        <name>mapreduce.reduce.java.opts</name>
        <value>-Xmx2048m</value>
    </property>

    <property>
        <name>mapreduce.map.cpu.vcores</name>
        <value>2</value>
    </property>

    <property>
        <name>mapreduce.reduce.cpu.vcores</name>
        <value>2</value>
    </property>

    <property>
        <name>mapreduce.map.maxattempts</name>
        <value>4</value>
    </property>

    <property>
        <name>mapreduce.reduce.maxattempts</name>
        <value>4</value>
    </property>

    <property>
        <name>mapreduce.job.reduce.slowstart.completedmaps</name>
        <value>0.2</value>
    </property>

    <property>
        <name>mapreduce.task.timeout</name>
        <value>600000</value>
    </property>

    <property>
        <name>mapreduce.task.io.sort.mb</name>
        <value>200</value>
    </property>

    <property>
        <name>mapreduce.map.sort.spill.percent</name>
        <value>0.85</value>
    </property>

    <property>
        <name>mapreduce.task.io.sort.factor</name>
        <value>20</value>
    </property>

    <property>
        <name>mapreduce.map.memory.mb</name>
        <value>2048</value>
    </property>

    <property>
        <name>mapreduce.reduce.memory.mb</name>
        <value>2048</value>
    </property>
相关文章
|
3天前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
16 0
|
3天前
|
分布式计算 Hadoop Java
Hadoop MapReduce编程
该教程指导编写Hadoop MapReduce程序处理天气数据。任务包括计算每个城市ID的最高、最低气温、气温出现次数和平均气温。在读取数据时需忽略表头,且数据应为整数。教程中提供了环境变量设置、Java编译、jar包创建及MapReduce执行的步骤说明,但假设读者已具备基础操作技能。此外,还提到一个扩展练习,通过分区功能将具有相同尾数的数字分组到不同文件。
10 1
|
4天前
|
分布式计算 Java Hadoop
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行
9 0
|
5天前
|
分布式计算 Hadoop Java
使用Hadoop MapReduce分析邮件日志提取 id、状态 和 目标邮箱
使用Hadoop MapReduce分析邮件日志提取 id、状态 和 目标邮箱
|
11天前
|
数据采集 SQL 分布式计算
|
21天前
|
资源调度 分布式计算 Hadoop
Hadoop Yarn 核心调优参数
这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
|
1月前
|
分布式计算 Hadoop
Hadoop系列 mapreduce 原理分析
Hadoop系列 mapreduce 原理分析
45 1
|
1月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
93 0
|
1月前
|
分布式计算 并行计算 搜索推荐
Hadoop MapReduce计算框架
【5月更文挑战第10天】HadoopMapReduce计算框架
22 3
|
1月前
|
分布式计算 数据可视化 Hadoop
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现
257 0

热门文章

最新文章

相关实验场景

更多