Hadoop Archives-阿里云开发者社区

Hadoop Archives

2017-09-18 1242

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文讲的是Hadoop Archives，Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据（形式是_index和_masterindx）和数据（part-*）文件。

本文讲的是Hadoop Archives，【IT168 资讯】Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是.har。Hadoop archive包含元数据（形式是_index和_masterindx）和数据（part-）文件。_index文件包含了档案中的文件的文件名和位置信息。
如何创建archive?
　　用法: hadoop archive -archiveName name *
　　由-archiveName选项指定你要创建的archive的名字。比如foo.har。archive的名字的扩展名应该是*.har。输入是文件系统的路径名，路径名的格式和平时的表达方式一样。创建的archive会保存到目标目录下。注意创建archives是一个Map/Reduce job。你应该在map reduce集群上运行这个命令。下面是一个例子：
　　hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/
　　在上面的例子中， /user/hadoop/dir1 和 /user/hadoop/dir2 会被归档到这个文件系统目录下 -- /user/zoo/foo.har。当创建archive时，源文件不会被更改或删除。
如何查看archives中的文件?
　　archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行，但是要使用不同的URI。另外，archive是不可改变的。所以重命名，删除和创建都会返回错误。Hadoop Archives 的URI是
　　har://scheme-hostname:port/archivepath/fileinarchive
　　如果没提供scheme-hostname，它会使用默认的文件系统。这种情况下URI是这种形式
　　har:///archivepath/fileinarchive
　　这是一个archive的例子。archive的输入是/dir。这个dir目录包含文件filea，fileb。把/dir归档到/user/hadoop/foo.bar的命令是
　　hadoop archive -archiveName foo.har /dir /user/hadoop
　　获得创建的archive中的文件列表，使用命令
　　hadoop dfs -lsr har:///user/hadoop/foo.har
　　查看archive中的filea文件的命令-
　　hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea

原文发布时间为：2009-06-15
本文作者：IT168.com
本文来自云栖社区合作伙伴IT168，了解相关信息可以关注IT168。
原文标题：Hadoop Archives

Hadoop Archives

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Hadoop Archives

热门文章

最新文章

相关课程

相关电子书