【大数据优化】（一）HDFS 上小文件优化-阿里云开发者社区

【大数据优化】（一）HDFS 上小文件优化

2022-06-11 366

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 【大数据优化】（一）HDFS 上小文件优化

HDFS 小文件优化方法

1） HDFS 小文件弊端：

HDFS 上每个文件都要在namenode 上建立一个索引，这个索引的大小约为150byte，这样当小文件比较多的时候，就会产生很多的索引文件，一方面会大量占用namenode 的内存空间，另一方面就是索引文件过大是的索引速度变慢。

2）解决的方式：

（1）Hadoop 本身提供了一些文件压缩的方案。

（2）从系统层面改变现有HDFS 存在的问题，其实主要还是小文件的合并，然后建立比较快速的索引。

3） Hadoop 自带小文件解决方案

（1）Hadoop Archive:

是一个高效地将小文件放入HDFS 块中的文件存档工具，它能够将多个小文件打包成一个HAR 文件，这样在减少namenode 内存使用的同时。

（2）Sequence file：

sequence file 由一系列的二进制key/value 组成，如果为key 小文件名，value 为文件内容，则可以将大批小文件合并成一个大文件。

（3）CombineFileInputFormat：

CombineFileInputFormat 是一种新的inputformat，用于将多个文件合并成一个单独的split，另外，它会考虑数据的存储位置。

4）小文件优化(实战经验)

对于大量小文件Job，可以开启JVM 重用会减少45%运行时间。JVM 重用理解：一个map 运行一个jvm，重用的话，在一个map 在jvm 上运行完毕后，jvm 继续运行其他jvm具体设置：mapreduce.job.jvm.numtasks 值在10-20 之间。

【大数据优化】（一）HDFS 上小文件优化

HDFS 小文件优化方法

1） HDFS 小文件弊端：

2）解决的方式：

3） Hadoop 自带小文件解决方案

4）小文件优化(实战经验)

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【大数据优化】（一）HDFS 上小文件优化

HDFS 小文件优化方法

1） HDFS 小文件弊端：

2） 解决的方式：

3） Hadoop 自带小文件解决方案

4）小文件优化(实战经验)

热门文章

最新文章

相关课程

相关电子书

2）解决的方式：