《Hadoop MapReduce实战手册》一1.7 HDFS的基本命令行文件操作

简介:

本节书摘来异步社区《Hadoop MapReduce实战手册》一书中的第1章,第1.7节,作者: 【美】Srinath Perera , Thilina Gunarathne 译者: 杨卓荦 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.7 HDFS的基本命令行文件操作

Hadoop MapReduce实战手册
HDFS是一个分布式的文件系统,就像一个Unix文件系统一样,它允许用户使用shell命令操纵文件系统。本节将说明如何使用HDFS的基本命令行来执行这些操作。

值得注意的是,每一条HDFS命令都有一个与之一一对应的Unix命令。例如,下面的命令:

>hadoopdfs –cat /data/foo.txt

该命令用于读取/data/foo.txt文件,并把它打印到屏幕上,就像Unix系统的cat命令一样。

准备工作
通过以下安装HDFS的攻略,启动HDFS服务器。

操作步骤

  1. 将工作目录跳转到HADOOP_HOME。
  2. 运行下面的命令来新建一个名为/test的目录:
>bin/hadoopdfs -mkdir /test
  1. HDFS文件系统的根目录为/,就像Unix文件系统的根目录一样。运行以下命令可以列出HDFS根目录的内容:
>bin/hadoopdfs -ls /
  1. 运行下面的命令将本地readme文件复制到/test目录下:
>bin/hadoopdfs -put README.txt /test
  1. 运行下面的命令列出/test目录的内容:
>bin/hadoopdfs -ls /test

Found 1 items
-rw-r--r-- 1 srinathsupergroup   1366 2012-04-10 07:06 /
test/README.txt
  1. 运行以下命令将/test/README.txt文件复制到本地目录:
>bin/hadoopdfs -get /test/README.txt README-NEW.txt

工作原理
当命令发出后,客户端将代表用户与HDFS NameNode通信,并执行相关操作。通常,我们使用以/开头的路径来引用文件或文件夹,如/data,客户端将根据HADOOP_HOME/conf目录中的配置项来选择NameNode。

然而,如果需要的话,我们可以使用一个完全限定路径来强制客户端跟一个特定的NameNode进行通信。例如,hdfs://bar.foo.com:9000/data,会要求客户端与运行在bar.foo.com主机9000端口上的NameNode进行通信。

更多参考
HDFS支持大多数的Unix命令,如cp、mv和chown,它们与上面讨论的命令一样,遵循相同的模式。文档http://hadoop.apache.org/docs/r1.0.3/file_system_shell.html提供了所有支持命令的列表。我们将在本书中通篇使用这些命令。

相关文章
|
11月前
|
XML 存储 分布式计算
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
HDFS(Hadoop分布式文件系统)由三个核心组件构成:NameNode、DataNode和SecondaryNameNode。NameNode负责管理文件系统的命名空间和客户端请求,维护元数据文件fsimage和edits;DataNode存储实际的数据块,默认大小为128MB;SecondaryNameNode定期合并edits日志到fsimage中,但不作为NameNode的热备份。通过这些组件的协同工作,HDFS实现了高效、可靠的大规模数据存储与管理。
1335 70
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
655 6
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
359 2
|
数据采集 分布式计算 Hadoop
使用Hadoop MapReduce进行大规模数据爬取
使用Hadoop MapReduce进行大规模数据爬取
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
386 0
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
240 0
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
233 3
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
319 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
204 4
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
562 5

相关实验场景

更多