开发者学堂课程【Hadoop 分布式文件系统 HDFS:小文件归档案例】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/93/detail/1472
小文件归档案例
------阿里云开发者学院
目录:
一、小文件归档
二、实例操作
一、小文件归档
1、HDFSb 存储小文件弊端
每个文件均按块存储,每个块的元数据存储在 NameNode 的内存中,因此 HDFS 存储小文件会非常低效(一个文件就占128MB)。因为大量的小文件会耗尺 NameNode 中的大部分内存。
但注意,存储小文件,所需要的磁品容量和数据块的大小无关。例如:一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。
2、解决存储小文件办法之一
HDFSb 存档文件或 HAR 文件,是一个更高效的文件存档工具,它将文件存入 HDFS块,在减少 NameNode 内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS 存档文件对内还是一个一个独立文件对 NameNode 而言却是一个整体,减少了 NameNode 的内存。
二、实例操作
1、需要启动 YARN 进程
2、归档文件
把/user/atguigu/input目录里面的所有文件归档成一个叫 inputhar 的归档文件,并把归档后文件存储到/user/atguigu/output路径下。
3、查看归档
4、解归档文件