hadoop 参数

简介: hadoop参数分享
看《Hadoop:权威指南》的时候收集了书上写的一些需要优化的参数,记录了一下子,给大家分享一下吧。
1.mapred.task.timeout 
任务超时时间,默认是10分钟
2.mapred.map.max.attempts mapred.reduce.max.attempts 
默认任务失败重复次数为4
3.mapred.max.map.failures.percent mapred.reduce.map.failures.percent 
不触发错误的失败的最大百分比
4.mapred.jobtracker.taskScheduler 
作业调度算法设置,默认是FIFO
5.io.sort.mb io.sort.spill.percent 
缓冲区大小默认为100MB,以及缓冲区阀值默认为0.8,超过80%就保存到硬盘
6.io.sort.factor 
默认为10,一次只能合并10个溢出文件
7.mapred.compress.map.output 
默认为false,不压缩输出文件 
压缩算法由mapred.map.output.compression.codec指定
8.tracker.http.Threads 
tasktracker用于默认为40的啦
9.mapred.reduce.parallel.copies 
reduce复制map输出的线程数,默认是5个
10.mapred.inmem.merge.threshold 
控制map输出阀值,如果reduce函数的内存需求不大,那么设置为0 
mapred.job.reduce.input.buffer.percent设置为1,可以带来性能的提升。
11.io.sort.factor 
合并因子,默认为10,意思是一次合并多少个Map输出 
如果Map输出为50个文件,则每次把10个合并成一个文件,最后有5个中间文件。
12.mapred.child.java.opts 
设置任务节点的内存大小
13.io.file.buffer.size 
缓冲区,默认为4KB的缓冲区
14.mapred.map.tasks.speculative.execution mapred.reduce.tasks.speculative.execution 
推测执行默认值为true,
15.mapred.job.reuse.jvm.num.tasks 
默认值为1,指定作业的jvm执行任务的最大数,如果为-1,则同一作业中的任务可以共享一个JVM,数量不限
16.mapred.linerecordreader.maxlength 
数据行长度的最大值,防止因为内存溢出导致的错误
17.SkipBadRecord开启跳跃模式,跳过失败的坏记录 
mapred.map.max.attemps mapred.reduce.attemps 一次只能跳过一个错误记录
18.关闭安全模式 
hadoop dfsadmin -safemode leave
目录
相关文章
|
2月前
|
存储 分布式计算 资源调度
hadoop配置文件参数
hadoop配置文件参数【2月更文挑战第13天】
116 6
|
22天前
|
分布式计算 Hadoop Java
|
2月前
|
资源调度 分布式计算 Hadoop
Hadoop Yarn 核心调优参数
这是一个关于测试集群环境的配置说明,包括3台服务器(master, slave1, slave2)运行CentOS 7.5,每台有4核CPU和4GB内存。集群使用Hadoop 3.1.3,JDK1.8。Yarn核心配置涉及调度器选择、ResourceManager线程数、节点检测、逻辑处理器使用、核心转换乘数、NodeManager内存和CPU设置,以及容器的内存和CPU限制。配置完成后,需要重启Hadoop并检查yarn配置。
|
2月前
|
分布式计算 Hadoop Java
Hadoop MapReduce 调优参数
对于 Hadoop v3.1.3,针对三台4核4G服务器的MapReduce调优参数包括:`mapreduce.reduce.shuffle.parallelcopies`设为10以加速Shuffle,`mapreduce.reduce.shuffle.input.buffer.percent`和`mapreduce.reduce.shuffle.merge.percent`分别设为0.8以减少磁盘IO。
|
2月前
|
存储 分布式计算 资源调度
Hadoop参数众多
【5月更文挑战第8天】Hadoop参数众多
25 4
|
12月前
|
存储 分布式计算 资源调度
Hadoop 参数调优
Hadoop 参数调优
61 0
|
分布式计算 Hadoop API
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
Hadoop中HDFS的API操作、HDFS文件上传(测试参数优先级)、copyFromLocalFile参数解读、HDFS文件下载、文件更名和移动、删除文件和目录、文件详情查看、文件和文件夹判断
|
存储 分布式计算 Hadoop
Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制
Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制
Hadoop中的FileInputFormat切片机制、FileInputFormat切片大小的参数配置、TextInputFormat、CombineTextInputFormat切片机制
|
存储 机器学习/深度学习 分布式计算
Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置
Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置
Hadoop中的DataNode、工作机制、数据完整性、掉线时限参数设置
|
分布式计算 Hadoop Linux
Hadoop回收站及fs.trash参数详解
Linux系统里,个人觉得最大的不方便之一就是没有回收站的概念。rm -rf很容易造成极大的损失。而在Hadoop或者说HDFS里面,有trash(回收站)的概念,可以使得数据被误删以后,还可以找回来。 Hadoop里的trash选项默认是关闭的,所以如果要生效,需要提前将trash选项打开,修改conf里的core-site.xml即可,下面我们测试下开启前后的区别:
280 0

相关实验场景

更多