Hadoop Archives

简介: 本文讲的是Hadoop Archives,Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是*.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part-*)文件。

本文讲的是Hadoop Archives,【IT168 资讯】Hadoop archives是特殊的档案格式。一个Hadoop archive对应一个文件系统目录。 Hadoop archive的扩展名是.har。Hadoop archive包含元数据(形式是_index和_masterindx)和数据(part-)文件。_index文件包含了档案中的文件的文件名和位置信息。
如何创建archive?
  用法: hadoop archive -archiveName name *
  由-archiveName选项指定你要创建的archive的名字。比如foo.har。archive的名字的扩展名应该是*.har。输入是文件系统的路径名,路径名的格式和平时的表达方式一样。创建的archive会保存到目标目录下。注意创建archives是一个Map/Reduce job。你应该在map reduce集群上运行这个命令。下面是一个例子:
  hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/
  在上面的例子中, /user/hadoop/dir1 和 /user/hadoop/dir2 会被归档到这个文件系统目录下 -- /user/zoo/foo.har。当创建archive时,源文件不会被更改或删除。
如何查看archives中的文件?
  archive作为文件系统层暴露给外界。所以所有的fs shell命令都能在archive上运行,但是要使用不同的URI。 另外,archive是不可改变的。所以重命名,删除和创建都会返回错误。Hadoop Archives 的URI是
  har://scheme-hostname:port/archivepath/fileinarchive
  如果没提供scheme-hostname,它会使用默认的文件系统。这种情况下URI是这种形式
  har:///archivepath/fileinarchive
  这是一个archive的例子。archive的输入是/dir。这个dir目录包含文件filea,fileb。 把/dir归档到/user/hadoop/foo.bar的命令是
  hadoop archive -archiveName foo.har /dir /user/hadoop
  获得创建的archive中的文件列表,使用命令
  hadoop dfs -lsr har:///user/hadoop/foo.har
  查看archive中的filea文件的命令-
  hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea

原文发布时间为:2009-06-15
本文作者:IT168.com
本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168。
原文标题:Hadoop Archives

目录
相关文章
|
6月前
|
资源调度
Hadoop3的安装
Hadoop3的安装
|
6月前
|
分布式计算 资源调度 Hadoop
bigdata-06-Hadoop了解与配置
bigdata-06-Hadoop了解与配置
76 0
|
6月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.15 安装HIVE
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
201 1
Hadoop学习笔记(HDP)-Part.15 安装HIVE
|
6月前
|
存储 机器学习/深度学习 分布式计算
Hadoop学习笔记(HDP)-Part.12 安装HDFS
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
180 0
Hadoop学习笔记(HDP)-Part.12 安装HDFS
|
6月前
|
SQL 分布式计算 Hadoop
Hadoop学习笔记(HDP)-Part.01 关于HDP
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
201 0
|
存储 分布式计算 负载均衡
Hadoop常见命令总结
常见基础命令: • 启动Hadoop • 进入HADOOP_HOME目录。 • 执行sh bin/start-all.sh • 关闭Hadoop • 进入HADOOP_HOME目录。 • 执行sh bin/stop-all.sh
555 0
hadoop3.x的安装
请看https://www.cnblogs.com/garfieldcgf/p/8119506.html
849 0
|
分布式计算 Hadoop 网络安全
hadoop1.2.1的安装
前提:1.机器最好都做ssh免密登录,最后在启动hadoop的时候会简单很多 免密登录看免密登录   2.集群中的虚拟机最好都关闭防火墙,否则很麻烦   3集群中的虚拟机中必须安装jdk.   具体安装步骤如下: 1.
869 0
|
SQL 分布式计算 HIVE
|
分布式计算 Java Hadoop