hadoop之 reduce个数控制

简介:

1、参数变更
1.x 参数名                                                         2.x 参数名 
mapred.tasktracker.reduce.tasks.maximum     mapreduce.tasktracker.reduce.tasks.maximum
mapred.reduce.tasks                                       mapreduce.job.reduces

 

2、参数设置

2.1、mapred.tasktracker.reduce.tasks.maximum设置为逻辑CPU个数

<property> 
<name>mapred.tasktracker.reduce.tasks.maximum</name> 
<value>8</value> 
<final>true</final> 
</property>


2.2.1、 hadoop 服务器端参数设定
mapred.reduce.tasks <= mapred.tasktracker.reduce.tasks.maximum <= 单台 datanode 逻辑cpu个数

2.2.2、应用端调用 job. setNumReduceTasks(int n) 方法指定

文章可以转载,必须以链接形式标明出处。


本文转自 张冲andy 博客园博客,如需转载请自行联系 原作者原文链接:http://www.cnblogs.com/andy6/p/8410590.html
相关文章
|
分布式计算 Hadoop 调度
hadoop中slot简介(map slot 和 reduce slot)
Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期抛砖引玉。 首先,slot不是CPU的Core,也不是memory chip,它是一个逻辑概念
2434 0
|
缓存 分布式计算 Hadoop
hadoop之Map join和Reduce join (13)
hadoop之Map join和Reduce join (13)
261 0
hadoop之Map join和Reduce join (13)
|
分布式计算 Hadoop
Hadoop学习:MapReduce不使用Reduce将表合并提高效率
Hadoop学习:MapReduce不使用Reduce将表合并提高效率
309 0
|
分布式计算 Hadoop Scala
spark中 map和reduce理解及与hadoop的map、reduce区别
spark中 map和reduce理解及与hadoop的map、reduce区别
550 0
|
分布式计算 Hadoop Java
Hadoop学习(三) Map/Reduce编程
用Java编程演示如何来实现Map/Reduce编程。其核心思想是通过Map函数,将一个大的任务拆分成若干个小的子任务,交给计算机去并行处理,全部处理结束后由Reducer函数来合并子任务的计算结果,产生最终结果。这样的计算方式将大大缩短计算时间。
252 0
|
分布式计算 Hadoop 数据处理
Hadoop 少量map/reduce任务执行慢问题
最近在做报表统计,跑hadoop任务。 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大。
2021 0
|
分布式计算 Java Hadoop
Hadoop中通过ToolRunner和Configured实现直接读取命令行动态出入reduce task数量,jar文件等
一个典型的实现Tool的程序: /** MyApp 需要从命令行读取参数,用户输入命令如, $bin/hadoop jar MyApp.jar -archives test.tgz  arg1 arg2 -archives 为hadoop通用参数,arg1 ,arg2为job的参数 */ public class MyApp extends Configured imple
2543 0
|
分布式计算 Java 物联网
C#、JAVA操作Hadoop(HDFS、Map/Reduce)真实过程概述。组件、源码下载。无法解决:Response status code does not indicate success: 500。
一、Hadoop环境配置概述       三台虚拟机,操作系统为:Ubuntu 16.04。       Hadoop版本:2.7.2       NameNode:192.168.72.132       DataNode:192.168.72.135,192.168.72.136       注:具配置过程,不具备介绍了,网上很多。
2003 0

相关实验场景

更多