HDFS 副本存放策略
namenode 如何选择在哪个 datanode 存储副本(replication)?这里需要对可靠性、写入带宽和读取带宽进行权衡。 Hadoop 对 datanode 存储副本有自己的副本策略,在其发展过程中一共有两个版本的副本策略,分别如下所示。
Hadoop 0.17之前的副本策略
第一个副本:存储在同机架的不同节点上。
第二个副本:存储在同机架的另外一个节点上。
第三个副本:存储在不同机架的另外一个节点。
其它副本:选择随机存储。
Hadoop 0.17 之后的副本策略
第一个副本:存储在同 Client 相同节点上。
第二个副本:存储在不同机架的节点上。
第三个副本:存储在第二个副本机架中的另外一个节点上。
其它副本:选择随机存储。
注意: 比如,一个10M的数据文件,进来被切分很多个Block,每个Block都有3个副本。
本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5080357.html,如需转载请自行联系原作者