Hadoop (HDFS)分布式文件系统基本操作

简介:

 Hadoop HDFS提供了一组命令集来操作文件,它既可以操作Hadoop分布式文件系统,也可以操作本地文件系统。但是要加上theme(Hadoop文件系统用hdfs://,本地文件系统用file://)

 

1. 添加文件,目录

HDFS文件系统(需要加hdfs://):

因为我们在core-site.xml中配置了fs.default.name

所以所有和HDFS打交道的命令都不需要加上前缀hdfs://192.168.129.35:9000 

 

比如我们要在Hadoop 文件系统中创建一个目录叫 /user/hadoop-user ,则

hadoop fs -mkdir /user/hadoop-user

要查看我们创建的目录,

hadoop fs -ls /  

或者用 hadoop fs -lsr /  递归的显示子目录

 

本地的文件系统(需要加file://):

比如我们要查看Linux本地文件系统的/tmp/charles目录,则:

 

2.移动复制文件,目录

如果我们要把一个文件从本地文件系统复制到HDFS

比如我们在/tmp/charles目录下有个文件叫 textfile.txt,那么我们想上传到HDFS中我们刚才创建的/user/hadoop-user目录下:

hadoop fs -put /tmp/charles/textfile.txt /user/hadoop-user

我们用 hadoop fs -ls 来查看是否这个文件已经被添加:

因为我们在hadoop的hdfs-site.xml中设置了replication-factor为1,所以这里只存一个备份,显示1

 

如果我们要把文件从HDFS复制到本地文件系统:

比如我们要把刚才复制过来的文件textfile.txt复制到本地目录下/tmp/charles2:

hadoop fs -get /user/hadoop-user/textfile.txt  /tmp/charles2/textfile.txt

我们检查本地文件系统,果然发现文件从HDFS 复制过来了。

 

为了证明HDFS的文件复制功能没有破坏文件,我们用md5sum命令来检查原始的位于/tmp/charles目录下的原始文件和/tmp/charles2目录下的复制回来的文件的md5校验和:

从这里可以看出,老文件和新文件校验和一致,说明HDFS的文件复制功能没有破坏文件。

 

3.查看文件,目录

如果我们要查看HDFS文件系统的某个文件:

hadoop fs -cat textfile.txt

 

 

4.删除文件,目录

如果我们要从HDFS文件系统中删除某个文件:

hadoop fs -rm textfile.txt

此时我们再去检查HDFS文件系统,文件已经不存在了。

 





本文转自 charles_wang888 51CTO博客,原文链接:http://blog.51cto.com/supercharles888/876099,如需转载请自行联系原作者

目录
相关文章
|
3月前
|
分布式计算 Ubuntu Hadoop
百度搜索:蓝易云【Ubuntu搭建全分布式Hadoop】
请注意,以上只是概述,并不包含详细的步骤和指令。搭建全分布式Hadoop是一个复杂的过程,需要对Hadoop的架构和配置有深入的理解,并熟悉Linux系统管理。建议在搭建全分布式Hadoop之前,先学习相关知识并查阅官方文档和教程,以确保正确搭建和配置Hadoop集群。
27 0
|
4月前
|
存储 分布式计算 Hadoop
Hadoop系列HDFS详解
Hadoop系列HDFS详解
40 0
|
7天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
5天前
|
分布式计算 Hadoop 测试技术
Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
【4月更文挑战第5天】Hadoop【基础知识 05】【HDFS的JavaAPI】(集成及测试)
28 8
|
5天前
|
分布式计算 资源调度 Hadoop
Hadoop【基础知识 03+04】【Hadoop集群资源管理器yarn】(图片来源于网络)(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第5天】Hadoop【基础知识 03】【Hadoop集群资源管理器yarn】(图片来源于网络)Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
31 9
|
6天前
|
分布式计算 Hadoop Shell
Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
【4月更文挑战第4天】Hadoop【基础知识 04】【HDFS常用shell命令】(hadoop fs + hadoop dfs + hdfs dfs 使用举例)
18 5
|
9天前
|
存储 分布式计算 Hadoop
【Hadoop】HDFS 读写流程
【4月更文挑战第9天】【Hadoop】HDFS 读写流程
|
1月前
|
分布式计算 资源调度 Hadoop
Hadoop分布式
基于Java的分布式计算平台,旨在处理海量数据。【2月更文挑战第19天】
25 2
|
1月前
|
存储 分布式计算 Hadoop
分布式文件系统(HDFS)
分布式文件系统(HDFS)【2月更文挑战第15天】
37 1
|
3月前
|
存储 分布式计算 Hadoop
Hadoop的Secondary NameNode在HDFS中的作用是什么?
Hadoop的Secondary NameNode在HDFS中的作用是什么?
36 0

相关实验场景

更多