《Hadoop MapReduce实战手册》一2.6 设置HDFS块大小-阿里云开发者社区

《Hadoop MapReduce实战手册》一2.6 设置HDFS块大小

2017-05-02 1989

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第2章，第2.6节，作者：【美】Srinath Perera , Thilina Gunarathne 译者：杨卓荦责编：杨海玲，更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.6 设置HDFS块大小

Hadoop MapReduce实战手册
HDFS跨集群存储文件时，会把文件切分成粗粒度的、大小固定的块。默认的HDFS块大小为64 MB。数据产品的块大小会影响文件系统操作的性能，如果存储和处理非常大的文件，那么较大的块大小会更高效。数据产品的块大小会影响MapReduce计算的性能，因为Hadoop的默认行为是为输入文件中的每个数据块创建一个map任务。

操作步骤

要使用NameNode的配置文件来设置HDFS的块大小，需要在$HADOOP_HOME/conf/hdfs-
site.xml中添加或修改以下参数。块的大小用字节数提供。这种修改不会改变那些已经存储在HDFS中的文件的块大小。只有在参数修改后新复制的文件才有新的块大小。

<property>
　<name>dfs.block.size</name>
　<value>134217728</value>
</property>

要为特定的文件路径指定HDFS块大小，你可以在命令行上载文件时，通过如下参数指定块大小：

>bin/hadoopfs -Ddfs.blocksize=134217728 -put data.in /user/foo
更多参考
还可以使用HDFS Java API在创建文件时指定块大小。

publicFSDataOutputStream create(Path f,boolean overwrite, int bufferSize, 
short replication,long blockSize)

可以使用fsck命令来查找特定文件路径的块大小和数据块在HDFS中的存储位置。也可以通过从HDFS的监控控制台浏览文件系统，找到这些信息。

>bin/hadoopfsck /user/foo/data.in -blocks -files -locations
...
/user/foo/data.in 215227246 bytes, 2 block(s): ...
0. blk_6981535920477261584_1059len=134217728 repl=1 [hostname:50010]
1. blk_-8238102374790373371_1059 len=81009518 repl=1 [hostname:50010]

...

《Hadoop MapReduce实战手册》一2.6 设置HDFS块大小

2.6 设置HDFS块大小

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

《Hadoop MapReduce实战手册》一2.6 设置HDFS块大小

2.6 设置HDFS块大小

热门文章

最新文章

相关课程

相关电子书

相关实验场景