1．HDFS基本概念

1.1．HDFS介绍

HDFS是Hadoop Distribute File System 的简称，意为：Hadoop分布式文件系统。是Hadoop核心组件之一，作为最底层的分布式存储服务而存在。
分布式文件系统解决的问题就是==大数据存储==。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景，它们为存储和处理超大规模数据提供所需的扩展能力。

在这里插入图片描述

1.2．HDFS设计目标

1)硬件故障是常态， HDFS将有成百上千的服务器组成，每一个组成部分都有可能出现故障。因此故障的检测和自动快速恢复是HDFS的核心架构目标。
2)HDFS上的应用与一般的应用不同，它们主要是以流式读取数据。HDFS被设计成适合批量处理，而不是用户交互式的。相较于数据访问的反应时间，更注重数据访问的高吞吐量。
3)典型的HDFS文件大小是GB到TB的级别。所以，HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽，一个集群中支持数百个节点，一个集群中还应该支持千万级别的文件。
4)大部分HDFS应用对文件要求的是write-one-read-many访问模型。一个文件一旦创建、写入、关闭之后就不需要修改了。这一假设简化了数据一致性问题，使高吞吐量的数据访问成为可能。
5)移动计算的代价比之移动数据的代价低。一个应用请求的计算，离它操作的数据越近就越高效，这在数据达到海量级别的时候更是如此。将计算移动到数据附近，比之将数据移动到应用所在显然更好。
6)在异构的硬件和软件平台上的可移植性。这将推动需要大数据集的应用更广泛地采用HDFS作为平台。

2．HDFS重要特性

首先，它是一个==文件系统==，用于存储文件，通过统一的命名空间目录树来定位文件；
其次，它是==分布式==的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。
在这里插入图片描述

2.1．master/slave架构

HDFS采用master/slave架构。一般一个HDFS集群是有一个Namenode和一定数目的Datanode组成。
Namenode是HDFS集群主节点，Datanode是HDFS集群从节点，两种角色各司其职，共同协调完成分布式的文件存储服务。

2.2．分块存储

HDFS中的文件在物理上是分块存储（block）的，块的大小可以通过配置参数来规定，默认大小在hadoop2.x版本中是==128M==。

2.3．名字空间（NameSpace）

HDFS支持传统的层次型文件组织结构。用户或者应用程序可以创建目录，然后将文件保存在这些目录里。文件系统名字空间的层次结构和大多数现有的文件系统类似：用户可以创建、删除、移动或重命名文件。
Namenode负责维护文件系统的名字空间，任何对文件系统名字空间或属性的修改都将被Namenode记录下来。
HDFS会给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，形如：

 hdfs://namenode:port/dir-a/dir-b/dir-c/file.data。
        
          
        
        
        
          
          AI 代码解读

2.4．Namenode元数据管理

我们把目录结构及文件分块位置信息叫做元数据。Namenode负责维护整个hdfs文件系统的目录树结构，以及每一个文件所对应的block块信息（block的id，及所在的datanode服务器）。

2.5．Datanode数据存储

文件的各个block的具体存储管理由datanode节点承担。每一个block都可以在多个datanode上。Datanode需要定时向Namenode汇报自己持有的block信息。

2.6．副本机制

为了容错，文件的所有block都会有副本。每个文件的block大小和副本系数都是可配置的。应用程序可以指定某个文件的副本数目。副本系数可以在文件创建的时候指定，也可以在之后改变。
副本数量也可以通过参数设置dfs.replication，默认是3。

2.7．一次写入，多次读出

HDFS是设计成适应一次写入，多次读出的场景，建议数据文件写入后不在进行更改，后续是不断的读数据。
正因为如此，HDFS适合用来做大数据分析的底层存储服务，并不适合用来做.网盘等应用，因为，修改不方便，延迟大，网络开销大，成本太高。

3．HDFS基本操作

3.1．Shell 命令行客户端

Hadoop提供了文件系统的shell命令行客户端，使用方法如下：

hadoop  fs  <args>
        
          
        
        
        
          
          AI 代码解读

文件系统shell包括与Hadoop分布式文件系统（HDFS）以及Hadoop支持的其他文件系统（如本地FS，HFTP FS，S3 FS等）直接交互的各种类似shell的命令。所有FS shell命令都将路径URI作为参数。
URI格式为scheme://authority/path。对于HDFS，该scheme是hdfs，对于本地FS，该scheme是file。scheme和authority是可选的。如果未指定，则使用配置中指定的默认方案。
对于HDFS,命令示例如下：

hadoop fs -ls  hdfs://namenode:host/parent/child
hadoop fs -ls  /parent/child    fs.defaultFS中有配置
        
          
        
        
        
          
          AI 代码解读

对于本地文件系统，命令示例如下：

hadoop fs -ls file:///root/ 
        
          
        
        
        
          
          AI 代码解读

如果使用的文件系统是HDFS，则使用hdfs dfs也是可以的，此时

hadoop fs <args> = hdfs dfs <args>
        
          
        
        
        
          
          AI 代码解读

3.2．Shell 命令选项

选项名称使用格式含义

-ls    -ls <路径>    查看指定路径的当前目录结构
-lsr    -lsr <路径>    递归查看指定路径的目录结构
-du    -du <路径>    统计目录下个文件大小
-dus    -dus <路径>    汇总统计目录下文件(夹)大小
-count    -count [-q] <路径>    统计文件(夹)数量
-mv    -mv <源路径> <目的路径>    移动
-cp    -cp <源路径> <目的路径>    复制
-rm    -rm [-skipTrash] <路径>    删除文件/空白文件夹
-rmr    -rmr [-skipTrash] <路径>    递归删除
-put    -put <多个linux上的文件> <hdfs路径>    上传文件
-copyFromLocal    -copyFromLocal <多个linux上的文件> <hdfs路径>    从本地复制
-moveFromLocal    -moveFromLocal <多个linux上的文件> <hdfs路径>    从本地移动
-getmerge    -getmerge <源路径> <linux路径>    合并到本地
-cat    -cat <hdfs路径>    查看文件内容
-text    -text <hdfs路径>    查看文件内容
-copyToLocal    -copyToLocal [-ignoreCrc] [-crc] [hdfs源路径] [linux目的路径]    从本地复制
-moveToLocal    -moveToLocal [-crc] <hdfs源路径> <linux目的路径>    从本地移动
-mkdir    -mkdir <hdfs路径>    创建空白文件夹
-setrep    -setrep [-R] [-w] <副本数> <路径>    修改副本数量
-touchz    -touchz <文件路径>    创建空白文件
-stat    -stat [format] <路径>    显示文件统计信息
-tail    -tail [-f] <文件>    查看文件尾部信息
-chmod    -chmod [-R] <权限模式> [路径]    修改权限
-chown    -chown [-R] [属主][:[属组]] 路径    修改属主
-chgrp    -chgrp [-R] 属组名称 路径    修改属组
-help    -help [命令选项]    帮助
        
          
        
        
        
          
          AI 代码解读

3.3．Shell常用命令介绍

-ls
使用方法：hadoop fs -ls [-h] [-R] <args>
功能：显示文件、目录信息。
示例：hadoop fs -ls /user/hadoop/file1
-mkdir
使用方法：hadoop fs -mkdir [-p] <paths>
功能：在hdfs上创建目录，-p表示会创建路径中的各级父目录。
示例：hadoop fs -mkdir –p /user/hadoop/dir1
-put
使用方法：hadoop fs -put [-f] [-p] [ -|<localsrc1> .. ]. <dst> 
功能：将单个src或多个srcs从本地文件系统复制到目标文件系统。
-p：保留访问和修改时间，所有权和权限。
-f：覆盖目的地（如果已经存在）
示例：hadoop fs -put -f localfile1 localfile2 /user/hadoop/hadoopdir
-get
使用方法：hadoop fs -get [-ignorecrc] [-crc] [-p] [-f] <src> <localdst>
-ignorecrc：跳过对下载文件的CRC检查。
-crc：为下载的文件写CRC校验和。
功能：将文件复制到本地文件系统。
示例：hadoop fs -get hdfs://host:port/user/hadoop/file localfile
-appendToFile 
使用方法：hadoop fs -appendToFile <localsrc> ... <dst>
功能：追加一个文件到已经存在的文件末尾
示例：hadoop fs -appendToFile localfile  /hadoop/hadoopfile


-cat  
使用方法：hadoop fs -cat [-ignoreCrc] URI [URI ...]
功能：显示文件内容到stdout
示例：hadoop fs -cat  /hadoop/hadoopfile
-tail
使用方法：hadoop fs -tail [-f] URI 
功能：将文件的最后一千字节内容显示到stdout。
-f选项将在文件增长时输出附加数据。
示例：hadoop  fs  -tail  /hadoop/hadoopfile
-chgrp 
使用方法：hadoop fs -chgrp [-R] GROUP URI [URI ...]
功能：更改文件组的关联。用户必须是文件的所有者，否则是超级用户。
-R将使改变在目录结构下递归进行。
示例：hadoop fs -chgrp othergroup /hadoop/hadoopfile
-chmod
功能：改变文件的权限。使用-R将使改变在目录结构下递归进行。
示例：hadoop  fs  -chmod  666  /hadoop/hadoopfile
-chown
功能：改变文件的拥有者。使用-R将使改变在目录结构下递归进行。
示例：hadoop  fs  -chown  someuser:somegrp   /hadoop/hadoopfile
-cp              
功能：从hdfs的一个路径拷贝hdfs的另一个路径
示例： hadoop  fs  -cp  /aaa/jdk.tar.gz  /bbb/jdk.tar.gz.2
-mv                     
功能：在hdfs目录中移动文件
示例： hadoop  fs  -mv  /aaa/jdk.tar.gz  /
-getmerge    
功能：合并下载多个文件
示例：比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,...
hadoop fs -getmerge /aaa/log.*  ./log.sum
-rm                
功能：删除指定的文件。只删除非空目录和文件。-r 递归删除。
示例：hadoop fs -rm -r /aaa/bbb/
-df               
功能：统计文件系统的可用空间信息
示例：hadoop  fs  -df  -h  /
-du 
功能：显示目录中所有文件大小，当只指定一个文件时，显示此文件的大小。
示例：hadoop fs -du /user/hadoop/dir1
-setrep                
功能：改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。
示例：hadoop fs -setrep -w 3 -R /user/hadoop/dir1
        
          
        
        
        
          
          AI 代码解读

【Hadoop生态】HDFS入门,看完就懂

1．HDFS基本概念

1.1．HDFS介绍

1.2．HDFS设计目标

2．HDFS重要特性

2.1．master/slave架构

2.2．分块存储

2.3．名字空间（NameSpace）

2.4．Namenode元数据管理

2.5．Datanode数据存储

2.6．副本机制

2.7．一次写入，多次读出

3．HDFS基本操作

3.1．Shell 命令行客户端

3.2．Shell 命令选项

3.3．Shell常用命令介绍

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Hadoop生态】HDFS入门,看完就懂

1．HDFS基本概念

1.1．HDFS介绍

1.2．HDFS设计目标

2．HDFS重要特性

2.1．master/slave架构

2.2．分块存储

2.3．名字空间（NameSpace）

2.4．Namenode元数据管理

2.5．Datanode数据存储

2.6．副本机制

2.7．一次写入，多次读出

3．HDFS基本操作

3.1．Shell 命令行客户端

3.2．Shell 命令选项

3.3．Shell常用命令介绍

热门文章

最新文章

相关课程

相关电子书

相关实验场景