《Hadoop MapReduce实战手册》一2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况

简介:

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第2章,第2.5节,作者: 【美】Srinath Perera , Thilina Gunarathne 译者: 杨卓荦 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.5 使用多个磁盘/卷以及限制HDFS的磁盘使用情况

Hadoop MapReduce实战手册
Hadoop支持为DataNode数据目录指定多个操作系统目录。此功能使我们能够利用多个磁盘/卷来存储DataNode的数据块。Hadoop将尝试在每个目录中存储等量的数据。Hadoop也支持限制HDFS使用的磁盘空间数量。

操作步骤
下面的步骤将展示如何添加多个磁盘卷。

  1. 在每个卷中创建HDFS的数据存储目录。
  2. 在$HADOOP_HOME/conf/hdfs-site.xml中,提供了一个逗号分隔的列表,对应于dfs.data.dir目录下的每个卷的数据存储位置的目录。
<property> 
 <name>dfs.data.dir</name>
 <value>/_u1_/_hadoop_/_data_,/_u2_/_hadoop_/_data_</value>
</property>
  1. 为了限制HDFS的磁盘使用情况,将下面的属性添加到$HADOOP_HOME/conf/ hdfs-site.xml中,以预留空间给非DFS使用。该值指定HDFS每卷不能使用的字节数。
<property>
 <name>dfs.datanode.du.reserved</name>
 <value>60 00000000</value>
 <description>Reserved space in bytes per volume. Always leave 
this much space free for non dfs use.
 </description>
</property>
相关文章
|
5天前
|
存储 分布式计算 负载均衡
Hadoop磁盘利用率不平衡的解决方式
【6月更文挑战第18天】
15 3
|
6天前
|
存储 分布式计算 算法
Hadoop磁盘利用率不平衡
【6月更文挑战第17天】
11 3
|
5天前
|
存储 分布式计算 算法
Hadoop磁盘利用率不平衡的原因
【6月更文挑战第18天】
15 1
|
11天前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
27 3
|
9天前
|
分布式计算 Hadoop Java
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
17 0
|
16天前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
36 0
|
18天前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
137 4
|
2月前
|
存储 分布式计算 运维
Hadoop的HDFS的特点高吞吐量
【5月更文挑战第11天】Hadoop的HDFS的特点高吞吐量
32 4
|
17天前
|
存储 分布式计算 安全
|
24天前
|
存储 分布式计算 NoSQL

相关实验场景

更多