备案控制台

开发者社区大数据文章正文

Hadoop知识点总结——HDFS小文件过多问题、解决方法

2023-06-01 951

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HDFS小文件过多问题、解决方法

小文件过多的影响

存储层面

每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。

计算层面

每个小文件都会对应启动一个MapTask，1个MapTask默认内存1G，造成资源浪费。

解决方法

1、采用har归档方式

HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在减少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNode而言却是一个整体，减少了NameNode的内存。

2、采用CombineTextInputFormat

CombineTextInputFormat用于将多个小文件在切片过程中生成的一个单独切片或者少量的切片

3、开启JVM重用

有小文件场景时开启JVM重用；如果没有产生小文件，不要开启JVM重用，因为会一直占用使用到的task卡槽，直到任务完成才释放。

JVM重用可以使得JVM实例在同一个job中重新使用N次，N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间。

<property>
    <name>mapreduce.job.jvm.numtasks</name>
    <value>10</value>
    <description>How many tasks to run per jvm,if set to -1 ,there is  no limit</description>
</property>

文章标签：

Java

分布式计算

块存储

Hadoop

存储

关键词：

hadoop hdfs

hadoop文件存储HDFS版

文件存储HDFS版文件

文件存储HDFS版hadoop

hadoop文件

笑看风云路

目录

相关文章

赵渝强老师

|

6月前

|

XML 存储分布式计算

【赵渝强老师】史上最详细：Hadoop HDFS的体系架构

HDFS（Hadoop分布式文件系统）由三个核心组件构成：NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求，维护元数据文件fsimage和edits；DataNode存储实际的数据块，默认大小为128MB；SecondaryNameNode定期合并edits日志到fsimage中，但不作为NameNode的热备份。通过这些组件的协同工作，HDFS实现了高效、可靠的大规模数据存储与管理。

赵渝强老师

639 70 75

武子康

|

11月前

|

分布式计算 Kubernetes Hadoop

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS

武子康

439 6 6

武子康

|

11月前

|

SQL 分布式计算监控

Hadoop-20 Flume 采集数据双写至本地+HDFS中监控目录变化 3个Agent MemoryChannel Source对比

Hadoop-20 Flume 采集数据双写至本地+HDFS中监控目录变化 3个Agent MemoryChannel Source对比

武子康

169 3 3

刘大猫.

|

9月前

|

Java

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

java实现从HDFS上下载文件及文件夹的功能，以流形式输出，便于用户自定义保存任何路径下

刘大猫.

274 34 34

武子康

|

11月前

|

SQL 分布式计算 Hadoop

Hadoop-19 Flume Agent批量采集数据到HDFS集群监听Hive的日志操作则把记录写入到HDFS 方便后续分析

Hadoop-19 Flume Agent批量采集数据到HDFS集群监听Hive的日志操作则把记录写入到HDFS 方便后续分析

武子康

188 2 2

武子康

|

11月前

|

SQL 分布式计算关系型数据库

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

武子康

283 0 0

武子康

|

11月前

|

SQL 分布式计算关系型数据库

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

武子康

137 0 0

武子康

|

11月前

|

SQL 分布式计算关系型数据库

Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce

武子康

186 0 0

白头雁

|

分布式计算应用服务中间件 Docker

Hadoop HDFS分布式文件系统Docker版

一、Hadoop文件系统HDFS 构建单节点的伪分布式HDFS 构建4个节点的HDFS分布式系统 nameNode secondnameNode datanode1 datanode2 其中 datanode2动态节点，在HDFS系统运行时，==动态加入==。

白头雁

2863 0 0

Echo_Wish

|

6月前

|

存储分布式计算 Hadoop

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

Echo_Wish

289 79 80

热门文章

最新文章

HDFS文件上传异常分析：put: `test.txt': No such file or directory

sqoop2:从mysql导出数据到hdfs

HDFS源码分析心跳汇报之周期性心跳

数据湖实操讲解【数据迁移】第三讲：如何将 HDFS 海量文件归档到OSS

Flume-NG + HDFS + HIVE 日志收集分析

数据湖实操讲解【数据迁移】第一讲：高效迁移 HDFS 海量文件到 OSS

HDFS源码分析之UnderReplicatedBlocks（二）

HDFS 修改副本数&fsck命令

HDFS源码分析数据块复制监控线程ReplicationMonitor（二）

Hadoop配置文件hdfs-site.xml

Hadoop 中的分布式缓存有什么用处？为什么 HDFS 无法读取小文件？

Hadoop 2.0 中 Active NameNode 和 Standby NameNode 是什么概念？

什么是 Hadoop 集群？

Hadoop YARN 的作用

Hadoop 中 NameNode 和 DataNode 的角色

Hadoop 的两个主要组件是什么？

什么是 Hadoop？它如何解决大数据问题？

Hadoop重新格式化HDFS的方案

Spark 与 Hadoop 的大数据之战：一场惊心动魄的技术较量，决定数据处理的霸权归属！

揭秘Hadoop：如何用这个超级工具征服大数据的海洋

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

2025云栖大会，阿里云百炼邀请您的参与和见证