HDFS的平衡

简介:

 当复制大规模数据到HDFS时,要考虑的一个重要因素是文件系统的平衡。当系统中的文件块能够很好地均衡分布到集群的各个节点时,HDFS才能够更好地工作,所以要保证distcp操作不会打破这个平衡。回到前面复制1000GB数据的例子,参见HDFS的distcp博文。当设定-m为1,就意味着1个Map操作可以完成1000GB的操作。这样不仅会让复制操作非常慢,而且不能充分利用集群的性能。最重要的是,复制文件的第一个块都要存储在执行Map任务的那个节点上,直到这个节点的磁盘被写满,显然这个节点是不平衡的。通常我们通过设置更多的、超过集群节点的Map任务数来避免不平衡情况的发生,所以最好的选择是刚开始并且还是使用的默认属性值,每个节点分配20个Map任务。!!!

  当然,我们不能保证集群总能够保持平衡,有时可能会限制Map的数量以便节点可以被其他任务使用,这样HDFS还提供了一个工具balancer。来改变集群中的文件块存储的平衡。

 

 

 


本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5140861.html,如需转载请自行联系原作者

相关文章
|
并行计算 Docker 容器
Mamba 环境安装:causal-conv1d和mamba-ssm报错解决办法
Mamba 环境安装:causal-conv1d和mamba-ssm报错解决办法
5313 0
|
存储 缓存 网络架构
计算机网络——三种交换方式(电路交换、分组交换、报文交换以及优缺点)
计算机网络——三种交换方式(电路交换、分组交换、报文交换以及优缺点)
1313 0
|
网络协议 Windows
纯IPv4环境访问IPv6网站
在纯IPv4环境中访问IPv6网站,可以通过Teredo协议。适用于Windows 10 19043.928版。操作包括:检查Teredo状态、设置为不可用或企业客户端、指定服务器(如teredo.iks-jena.de)、配置端口(可选),然后验证通过ping IPv6地址(如6.ipw.cn)来确认功能是否正常。
8106 0
|
存储 安全 网络性能优化
基于单片机的交通灯控制系统设计
基于单片机的交通灯控制系统设计
基于单片机的交通灯控制系统设计
|
弹性计算 调度
阿里云服务器ECS共享型和通用型区别对比
阿里云共享型和通用型的区别,实际上是共享型和独享型云服务器的区别,只有CPU计算性能是有差别的,共享型云服务器的CPU计算性能不如独享型,ECS共享型云服务器在高负载时可能导致计算性能波动不稳定,而通用型云服务器计算性能稳定。除了CPU计算性能,其他的如公网带宽、系统盘及内存等都是无差别的
1149 0
阿里云服务器ECS共享型和通用型区别对比
|
弹性计算
阿里云服务器包年包月和按量付费收费模式有什么区别,如何选择?
本文介绍了阿里云服务器包年包月和按量付费收费模式的适用场景和区别,可供新手用户选择参考!
3318 0
阿里云服务器包年包月和按量付费收费模式有什么区别,如何选择?
|
存储 机器学习/深度学习 弹性计算
阿里云ARM服务器计算型c8y实例CPU倚天Yitian 710性能评测
阿里云服务器ECS计算型c8y实例,CPU采用2.75 GHz主频的倚天710处理器,c8y云服务器自研倚天710 ARM架构CPU,依托第四代神龙架构,提供稳定可预期的超高性能
1196 0
|
消息中间件 JavaScript 小程序
SpringBoot+Netty+WebSocket 实现消息推送
SpringBoot+Netty+WebSocket 实现消息推送
SpringBoot+Netty+WebSocket 实现消息推送
|
缓存 安全 数据建模