01 引言
在前面的教程,我们知道了HDFS
的联邦机制了,有兴趣的同学可以参阅:
本文接下来主要讲的是HDFS的磁盘均衡。
02 HDFS磁盘均衡
2.1 为何需要磁盘均衡?
在把数据存储到 Datanode 多个磁盘的时候,会出现磁盘之间数据不均衡的情况,比如:
- 大量的数据写入和删除
- 磁盘更换
所以,在Hadoop 3.0
提供了 Diskbalancer
工具,用于均衡一个Datanode 内多个磁盘之间的数据均衡。
2.2 磁盘均衡原理
先来看看一张图:
当我们往 HDFS
上写入新的数据块,DataNode
将会使用 volume
选择策略来为这个块选择存储的地方。目前 Hadoop 支持两种 volume 选择策略:
round-robin
(循环策略) :将新块均匀分布在可用磁盘上available space
(可用空间策略):它是优先将数据写入具有最大可用空间的磁盘(通过百分比计算的)
其实还是有问题的:
默认情况下,
DataNode
是使用基于round-robin
策略来写入新的数据块。然而在一个长时间运行的集群中,由于HDFS
中的大规模文件删除或者通过往DataNode
中添加新的磁盘,仍然会导致同一个DataNode
中的不同磁盘存储的数据很不均衡。
即使你使用的是基于可用空间的策略,卷(volume)不平衡仍可导致较低效率的磁盘I/O,比如所有新增的数据块都会往新增的磁盘上写,在此期间,其他的磁盘会处于空闲状态,这样新的磁盘将会是整个系统的瓶颈
2.3 磁盘均衡的使用
① 首先,确保所有 DataNode
上的 dfs.disk.balancer.enabled
参数设置成 true
② 使用 df命令来显示磁盘的使用率(两个磁盘的使用率很不均衡):
# df -h …. /var/disk1 5.8G 3.6G 1.9G 66% /mnt/disk1 /var/disk2 5.8G 13M 5.5G 1% /mnt/disk2
磁盘平衡执行计划生成的文件内容格式是Json
的,并且存储在 HDFS 之上。在默认情况下,这些文件是存储在 /system/diskbalancer
目录下面:
$ hdfs dfs -ls /system/diskbalancer/2016-Aug-19-18-04-01 Found 2 items -rw-r--r-- 3 hdfs supergroup 1955 2016-08-19 18:04 /system/diskbalancer/2016-Aug-19-18-04-01/lei-dn-3.example.org.before.json -rw-r--r-- 3 hdfs supergroup 908 2016-08-19 18:04 /system/diskbalancer/2016-Aug-19-18-04-01/lei-dn-3.example.org.plan.json
③ 通过下面的命令在 DataNode
上执行这个生成的计划,这个命令将JSON
里面的计划提交给DataNode
,而DataNode
会启动一个名为 BlockMover
的线程中执行这个计划:
$ hdfs diskbalancer -execute /system/diskbalancer/2016-Aug-17-17-03-56/172.26.10.16.plan.json 16/08/17 17:22:08 INFO command.Command: Executing "execute plan" command
④ 我们可以使用 query
命令来查询 DataNode
上diskbalancer
任务的状态(下面结果输出的 PLAN_DONE
表示 disk-balancing task
已经执行完成):
# hdfs diskbalancer -query lei-dn-3:20001 16/08/19 21:08:04 INFO command.Command: Executing "query plan" command. Plan File: /system/diskbalancer/2016-Aug-19-18-04-01/lei-dn-3.example.org.plan.json Plan ID: ff735b410579b2bbe15352a14bf001396f22344f7ed5fe24481ac133ce6de65fe5d721e223b08a861245be033a82469d2ce943aac84d9a111b542e6c63b40e75 Result: PLAN_DONE
⑤ 使用 df -h
命令来查看各个磁盘的空间使用率:
# df -h Filesystem Size Used Avail Use% Mounted on …. /var/disk1 5.8G 2.1G 3.5G 37% /mnt/disk1 /var/disk2 5.8G 1.6G 4.0G 29% /mnt/disk2
上面的结果证明,磁盘平衡器成功地将/var/disk1
和 /var/disk2
空间使用率的差异降低到 10%
以下,说明任务完成!
03 文末
本文主要讲解HDFS的磁盘均衡,谢谢大家的阅读,本文完!
参考文献: