《Hadoop MapReduce实战手册》一2.7 设置文件冗余因子

简介:

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第2章,第2.7节,作者: 【美】Srinath Perera , Thilina Gunarathne 译者: 杨卓荦 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.7 设置文件冗余因子

Hadoop MapReduce实战手册
HDFS跨集群存储文件时,会把文件切分成粗粒度的、大小固定的块。出于容错的目的,这些粗粒度的数据块会被复制到不同的DataNode中。数据块的冗余有助于增加数据本地化MapReduce计算的能力,同时也可以增加总的数据访问带宽。减少冗余因子则有助于节省HDFS上的存储空间。

HDFS冗余因子(HDFS replication factor)是文件级属性,可以基于每个文件进行单独配置。本节将展示如何通过改变HDFS部署的默认冗余因子来影响以后创建的新文件,如何在创建HDFS文件的时候指定自定义冗余因子,以及如何改变现有的HDFS文件的冗余因子。

操作步骤

  1. 要使用NameNode的配置文件来设置文件的冗余因子,需要添加或修改`javascript
    $HADOOP_HOME/conf/
hdfs-site.xml中的dfs.replication属性。这种修改不会改变那些HDFS中已有的文件的冗余因子。新的冗余因子只会影响在参数修改后新复制的文件。


  dfs.replication
  2

2. 也可以在上传文件时在命令行中设置文件的冗余因子,如下所示:

bin/hadoopfs -D dfs.replication=1 -copyFromLocal non-critical-

file.txt /user/foo

3. 使用setrep命令可以改变HDFS中已有的文件或文件路径的冗余因子。

bin/hadoopfs -setrep 2 non-critical-file.txt

Replication 3 set: hdfs://myhost:9000/user/foo/non-critical-file.txt

工作原理
setrep命令的语法如下:

hadoopfs -setrep [-R]

使用setrep命令的<path>参数可以指定需要改变冗余因子的HDFS路径。使用-R选项可以递归地为一个目录中的所有文件和目录设置冗余因子。

更多参考
使用ls命令列出文件时,会显示文件的冗余因子。

bin/hadoopfs -ls

Found 1 item
-rw-r--r--2foo supergroup ... /user/foo/non-critical-file.txt

相关文章
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
91 2
|
1月前
|
数据采集 分布式计算 Hadoop
使用Hadoop MapReduce进行大规模数据爬取
使用Hadoop MapReduce进行大规模数据爬取
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
130 3
|
3月前
|
分布式计算 资源调度 数据可视化
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
Hadoop-06-Hadoop集群 历史服务器配置 超详细 执行任务记录 JobHistoryServer MapReduce执行记录 日志聚合结果可视化查看
61 1
|
3月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
67 1
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
129 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
59 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
74 0
|
5月前
|
缓存 分布式计算 算法
优化Hadoop MapReduce性能的最佳实践
【8月更文第28天】Hadoop MapReduce是一个用于处理大规模数据集的软件框架,适用于分布式计算环境。虽然MapReduce框架本身具有很好的可扩展性和容错性,但在某些情况下,任务执行可能会因为各种原因导致性能瓶颈。本文将探讨如何通过调整配置参数和优化算法逻辑来提高MapReduce任务的效率。
726 0
|
7月前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
300 0

热门文章

最新文章

相关实验场景

更多