HDFS教程(05)- HDFS磁盘均衡

简介: HDFS教程(05)- HDFS磁盘均衡

01 引言

在前面的教程,我们知道了HDFS的联邦机制了,有兴趣的同学可以参阅:

本文接下来主要讲的是HDFS的磁盘均衡。

02 HDFS磁盘均衡

2.1 为何需要磁盘均衡?

在把数据存储到 Datanode 多个磁盘的时候,会出现磁盘之间数据不均衡的情况,比如:

  • 大量的数据写入和删除
  • 磁盘更换

所以,在Hadoop 3.0 提供了 Diskbalancer 工具,用于均衡一个Datanode 内多个磁盘之间的数据均衡。

2.2 磁盘均衡原理

先来看看一张图:

当我们往 HDFS 上写入新的数据块,DataNode 将会使用 volume 选择策略来为这个块选择存储的地方。目前 Hadoop 支持两种 volume 选择策略:

  • round-robin(循环策略) :将新块均匀分布在可用磁盘上
  • available space(可用空间策略):它是优先将数据写入具有最大可用空间的磁盘(通过百分比计算的)

其实还是有问题的:

默认情况下,DataNode 是使用基于 round-robin策略来写入新的数据块。然而在一个长时间运行的集群中,由于HDFS中的大规模文件删除或者通过往 DataNode中添加新的磁盘,仍然会导致同一个DataNode 中的不同磁盘存储的数据很不均衡。

即使你使用的是基于可用空间的策略,卷(volume)不平衡仍可导致较低效率的磁盘I/O,比如所有新增的数据块都会往新增的磁盘上写,在此期间,其他的磁盘会处于空闲状态,这样新的磁盘将会是整个系统的瓶颈

2.3 磁盘均衡的使用

① 首先,确保所有 DataNode 上的 dfs.disk.balancer.enabled参数设置成 true

② 使用 df命令来显示磁盘的使用率(两个磁盘的使用率很不均衡):

# df -h
….
/var/disk1      5.8G  3.6G  1.9G  66% /mnt/disk1
/var/disk2      5.8G   13M  5.5G   1% /mnt/disk2

磁盘平衡执行计划生成的文件内容格式是Json的,并且存储在 HDFS 之上。在默认情况下,这些文件是存储在 /system/diskbalancer 目录下面:

$ hdfs dfs -ls /system/diskbalancer/2016-Aug-19-18-04-01
Found 2 items
-rw-r--r--   3 hdfs supergroup       1955 2016-08-19 18:04 /system/diskbalancer/2016-Aug-19-18-04-01/lei-dn-3.example.org.before.json
-rw-r--r--   3 hdfs supergroup        908 2016-08-19 18:04 /system/diskbalancer/2016-Aug-19-18-04-01/lei-dn-3.example.org.plan.json

③ 通过下面的命令在 DataNode 上执行这个生成的计划,这个命令将JSON里面的计划提交给DataNode,而DataNode会启动一个名为 BlockMover的线程中执行这个计划:

$ hdfs diskbalancer -execute /system/diskbalancer/2016-Aug-17-17-03-56/172.26.10.16.plan.json
16/08/17 17:22:08 INFO command.Command: Executing "execute plan" command

④ 我们可以使用 query 命令来查询 DataNodediskbalancer 任务的状态(下面结果输出的 PLAN_DONE 表示 disk-balancing task已经执行完成):

# hdfs diskbalancer -query lei-dn-3:20001
16/08/19 21:08:04 INFO command.Command: Executing "query plan" command.
Plan File: /system/diskbalancer/2016-Aug-19-18-04-01/lei-dn-3.example.org.plan.json
Plan ID: ff735b410579b2bbe15352a14bf001396f22344f7ed5fe24481ac133ce6de65fe5d721e223b08a861245be033a82469d2ce943aac84d9a111b542e6c63b40e75
Result: PLAN_DONE

⑤ 使用 df -h 命令来查看各个磁盘的空间使用率:

# df -h
Filesystem      Size  Used Avail Use% Mounted on
….
/var/disk1      5.8G  2.1G  3.5G  37% /mnt/disk1
/var/disk2      5.8G  1.6G  4.0G  29% /mnt/disk2

上面的结果证明,磁盘平衡器成功地将/var/disk1/var/disk2空间使用率的差异降低到 10% 以下,说明任务完成!

03 文末

本文主要讲解HDFS的磁盘均衡,谢谢大家的阅读,本文完!


参考文献:

目录
相关文章
|
6月前
|
存储 分布式计算 Hadoop
HDFS教程(04)- HDFS联邦
HDFS教程(04)- HDFS联邦
77 0
|
6月前
|
存储 机器学习/深度学习 分布式计算
HDFS教程(03)- HDFS高可用与容错
HDFS教程(03)- HDFS高可用与容错
168 0
|
6月前
|
分布式计算 Hadoop
HDFS教程(02)- HDFS命令汇总
HDFS教程(02)- HDFS命令汇总
72 0
|
6月前
|
存储 分布式计算 Hadoop
HDFS教程(01)- 初识HDFS
HDFS教程(01)- 初识HDFS
101 0
|
存储 分布式计算 Hadoop
深入浅出:Hadoop的start-balancer.sh与hdfs balancer分布式数据均衡
Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。当HDFS出现不平衡状况的时候,将引发很多问题,比如:1、MR程序无法很好地利用本地计算的优势2、机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。
3249 0
|
存储
Hadoop-HDFS文件磁盘位置与存储方式
HDFS大文件存储在磁盘上,居然能这样恢复文件内容。
147 0
Hadoop-HDFS文件磁盘位置与存储方式
|
Web App开发 存储 分布式计算
[python作业AI毕业设计博客]大数据Hadoop工具python教程1-HDFS Hadoop分布式文件系统
Hadoop分布式文件系统(HDFS:Hadoop Distributed File System)是基于Java的分布式文件系统分布式,可扩展和可移植的文件系统,旨在跨越大型商用服务器集群。 HDFS的设计基于谷歌文件系统GFS(https://ai.google/research/pubs/pub51)。
|
分布式计算 大数据 Hadoop
[雪峰磁针石博客]大数据Hadoop工具python教程2-python访问HDFS
https://pypi.org/project/hdfs3 已经不维护PyArrow https://pypi.org/project/hdfs/https://pypi.org/project/snakebite/ python2中比较好,对python3支持不好。
|
存储 分布式计算 Hadoop
Hadoop2.7实战v1.0之start-balancer.sh与hdfs balancer数据均衡
Hadoop2.7实战v1.0之start-balancer.sh与hdfs balancer数据均衡【修正版】 适用场景: a.
3359 0