小文件归档案例| 学习笔记

简介: 快速学习小文件归档案例

开发者学堂课程【Hadoop 分布式文件系统 HDFS小文件归档案例】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/93/detail/1472


小文件归档案例

------阿里云开发者学院

 

目录

 小文件归档

 实例操作

 

一、小文件归档

1HDFSb 存储小文件弊端

每个文件均按块存储,每个块的元数据存储在 NameNode 的内存中,因此 HDFS 存储小文件会非常低效一个文件就占128MB)。因为大量的小文件会耗尺 NameNode 中的大部分内存。

但注意,存储小文件所需要的磁品容量和数据块的大小无关。例如一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。

2解决存储小文件办法之一

HDFSb 存档文件或 HAR 文件,是一个更高效的文件存档工具,它将文件存入 HDFS块,在减少 NameNode 内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS 存档文件对内还是一个一个独立文件对 NameNode 而言却是一个整体,减少了 NameNode 的内存

图片1.png


二、实例操作

1、需要启动 YARN 进程

图片8.png

图片2.png

2、归档文件

把/user/atguigu/input目录里面的所有文件归档成一个叫 inputhar 的归档文件,并把归档后文件存储到/user/atguigu/output路径下。

图片3.png

图片4.png

图片5.png

3、查看归档

图片6.png

4、解归档文件

图片7.png

相关文章
|
Unix Linux
R语言-文件归档压缩方法
本文简单分享了一种在 R语言 中压缩文件的实现方法,以供参考学习
611 0
R语言-文件归档压缩方法
|
存储 SQL Cloud Native
【笔记】用户指南—备份与恢复—备份数据
PolarDB-X支持自动备份及手动备份,方便您恢复历史数据。 本文介绍数据备份的相关功能。
115 0
【笔记】用户指南—备份与恢复—备份数据
|
安全 测试技术
安全参考和书安归档
版权声明:License CC BY-NC-SA 4.0 https://blog.csdn.net/wizardforcel/article/details/82588261 《安...
1207 0
|
Windows 网络安全 数据安全/隐私保护
技术文档归档
各种技术文档比较散,找一个地方集中记录,方便下载。
632 0
|
算法 Windows Linux
文件的压缩解压与归档
Windows下的常见压缩格式有.zip和.rar,而Linux下的常见压缩格式有:gz,bzip2,xz,zip等由于压缩算法的不同,所以以上几个压缩后的文件大小各不同。 一、gzip 用法:gzip 文件路径 gzip压缩与解压完成后会删除源文件。
866 0
下一篇
DataWorks