HDFS的平衡

简介:

 当复制大规模数据到HDFS时,要考虑的一个重要因素是文件系统的平衡。当系统中的文件块能够很好地均衡分布到集群的各个节点时,HDFS才能够更好地工作,所以要保证distcp操作不会打破这个平衡。回到前面复制1000GB数据的例子,参见HDFS的distcp博文。当设定-m为1,就意味着1个Map操作可以完成1000GB的操作。这样不仅会让复制操作非常慢,而且不能充分利用集群的性能。最重要的是,复制文件的第一个块都要存储在执行Map任务的那个节点上,直到这个节点的磁盘被写满,显然这个节点是不平衡的。通常我们通过设置更多的、超过集群节点的Map任务数来避免不平衡情况的发生,所以最好的选择是刚开始并且还是使用的默认属性值,每个节点分配20个Map任务。!!!

  当然,我们不能保证集群总能够保持平衡,有时可能会限制Map的数量以便节点可以被其他任务使用,这样HDFS还提供了一个工具balancer。来改变集群中的文件块存储的平衡。

 

 

 


本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5140861.html,如需转载请自行联系原作者

相关文章
|
6月前
|
存储 分布式计算 运维
Hadoop的HDFS的特点高吞吐量
【5月更文挑战第11天】Hadoop的HDFS的特点高吞吐量
122 4
|
3月前
|
存储 缓存 分布式计算
HDFS优化方案
HDFS优化方案
|
3月前
|
存储 运维 分布式计算
HDFS 如何容错?
【8月更文挑战第31天】
80 0
|
5月前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
231 3
|
6月前
|
存储 分布式计算 Hadoop
Hadoop节点HDFS数据块的作用
【5月更文挑战第19天】
65 3
|
6月前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据块基本概念
【5月更文挑战第19天】
77 1
|
6月前
|
存储 分布式计算 Hadoop
hadoop节点HDFS数据分片过程
【5月更文挑战第18天】
68 1
|
存储 分布式计算 安全
分布式文件系统(HDFS产生背景及定义 HDFS优缺点 HDFS体系架构 HDFS文件块大小)
分布式文件系统(HDFS产生背景及定义 HDFS优缺点 HDFS体系架构 HDFS文件块大小)
244 0
|
12月前
|
存储 JSON 分布式计算
HDFS教程(05)- HDFS磁盘均衡
HDFS教程(05)- HDFS磁盘均衡
231 0
|
存储 分布式计算 Hadoop
HDFS组成架构
HDFS组成架构
下一篇
无影云桌面