hadoop之hdfs概念(7)

简介: hadoop之hdfs概念(7)

HDFS


1.概念


HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。


2.组成


1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。


2)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。


3)DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。


4)Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。


3.HDFS 文件块大小


HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M

HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而,传输一个由多个块组成的文件的时间取决于磁盘传输速率。


如果寻址时间约为10ms,而传输速率为100MB/s,为了使寻址时间仅占传输时间的1%,我们要将块大小设置约为100MB。默认的块大小128MB。

块的大小:


10ms*100*100M/s = 100M


1dc618a0ed9580ce8bfa6facb208c08f.png


4.命令


5d4c6812c8535adbb050f4ddf2e1bce8.png

HFDS命令行操作


1)基本语法


bin/hadoop fs 具体命令


2)参数大全


bin/hadoop fs


Usage: hadoop fs [generic options]
  [-appendToFile <localsrc> ... <dst>]
  [-cat [-ignoreCrc] <src> ...]
  [-checksum <src> ...]
  [-chgrp [-R] GROUP PATH...]
  [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
  [-chown [-R] [OWNER][:[GROUP]] PATH...]
  [-copyFromLocal [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
  [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
  [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] <path> ...]
  [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
  [-createSnapshot <snapshotDir> [<snapshotName>]]
  [-deleteSnapshot <snapshotDir> <snapshotName>]
  [-df [-h] [<path> ...]]
  [-du [-s] [-h] [-x] <path> ...]
  [-expunge]
  [-find <path> ... <expression> ...]
  [-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
  [-getfacl [-R] <path>]
  [-getfattr [-R] {-n name | -d} [-e en] <path>]
  [-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
  [-help [cmd ...]]
  [-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [<path> ...]]
  [-mkdir [-p] <path> ...]
  [-moveFromLocal <localsrc> ... <dst>]
  [-moveToLocal <src> <localdst>]
  [-mv <src> ... <dst>]
  [-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
  [-renameSnapshot <snapshotDir> <oldName> <newName>]
  [-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
  [-rmdir [--ignore-fail-on-non-empty] <dir> ...]
  [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
  [-setfattr {-n name [-v value] | -x name} <path>]
  [-setrep [-R] [-w] <rep> <path> ...]
  [-stat [format] <path> ...]
  [-tail [-f] <file>]
  [-test -[defsz] <path>]
  [-text [-ignoreCrc] <src> ...]
  [-touchz <path> ...]
  [-truncate [-w] <length> <path> ...]
  [-usage [cmd ...]]


3)常用命令实操


(1)-help:输出这个命令参数


bin/hdfs dfs -help rm


(2)-ls: 显示目录信息


hadoop fs -ls /
hadoop fs -lsr /


(3)-mkdir:在hdfs上创建目录


hadoop fs  -mkdir  -p  /hdfs路径


(4)-moveFromLocal从本地剪切粘贴到hdfs


hadoop  fs  -moveFromLocal  本地路径  /hdfs路径


(5)–appendToFile :追加一个文件到已经存在的文件末尾


hadoop  fs  -appendToFile  本地路径  /hdfs路径


(6)-cat :显示文件内容


hadoop fs -cat /hdfs路径


(7)-tail -f:监控文件


hadoop  fs  -tail -f /hdfs路径


(8)-chmod、-chown:linux文件系统中的用法一样,修改文件所属权限


hadoop  fs  -chmod  777  /hdfs路径
hadoop  fs  -chown  someuser:somegrp   /hdfs路径


(9)-cp :从hdfs的一个路径拷贝到hdfs的另一个路径


hadoop  fs  -cp  /hdfs路径1  / hdfs路径2


(10)-mv:在hdfs目录中移动/重命名 文件


hadoop  fs  -mv  /hdfs路径  / hdfs路径


(11)-get:等同于copyToLocal,就是从hdfs下载文件到本地


hadoop fs -get / hdfs路径 ./本地路径


(12)-getmerge :合并下载多个文到linux本地,比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,…(注:是合成到Linux本地)


hadoop fs -getmerge /aaa/log.* ./log.sum

合成到不同的目录:


hadoop fs -getmerge /hdfs1路径 /hdfs2路径 /


(13)-put:等同于copyFromLocal


hadoop  fs  -put  /本地路径  /hdfs路径


(14)-rm:删除文件或文件夹


hadoop fs -rm -r /hdfs路径


(15)-df :统计文件系统的可用空间信息


hadoop fs -df -h / hdfs路径


(16)-du统计文件夹的大小信息


hadoop fs -du -s -h / hdfs路径
1
188.5 M /user/hfl/wcinput
hadoop fs -du  -h / hdfs路径
1
188.5 M / hdfs路径
97 / hdfs路径


(17)-count:统计一个指定目录下的文件节点数量


hadoop fs -count /aaa/
1
hadoop fs -count / hdfs路径
1
1 2 197657784 / hdfs路径

第一个参数嵌套文件层级; 第2个参数是 包含文件的总数


(18)-setrep:设置hdfs中文件的副本数量:3是副本数,可改


hadoop fs -setrep 3 / hdfs路径

46a9d80a6e05e4e3b19d57a0ee70bcdf.png

这里设置的副本数只是记录在namenode的元数据中,是否真的会有这么多副本,还得看datanode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10。


相关文章
|
26天前
|
存储 分布式计算 Hadoop
Hadoop Distributed File System (HDFS): 概念、功能点及实战
【6月更文挑战第12天】Hadoop Distributed File System (HDFS) 是 Hadoop 生态系统中的核心组件之一。它设计用于在大规模集群环境中存储和管理海量数据,提供高吞吐量的数据访问和容错能力。
225 4
|
19天前
|
存储 分布式计算 Hadoop
Hadoop的HDFS数据均衡
【6月更文挑战第13天】
29 3
|
25天前
|
存储 分布式计算 安全
|
17天前
|
分布式计算 Hadoop Java
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
21 0
|
24天前
|
存储 分布式计算 Hadoop
Hadoop生态系统详解:HDFS与MapReduce编程
Apache Hadoop是大数据处理的关键,其核心包括HDFS(分布式文件系统)和MapReduce(并行计算框架)。HDFS为大数据存储提供高容错性和高吞吐量,采用主从结构,通过数据复制保证可靠性。MapReduce将任务分解为Map和Reduce阶段,适合大规模数据集的处理。通过代码示例展示了如何使用MapReduce实现Word Count功能。HDFS和MapReduce的结合,加上YARN的资源管理,构成处理和分析大数据的强大力量。了解和掌握这些基础对于有效管理大数据至关重要。【6月更文挑战第12天】
46 0
|
2月前
|
存储 分布式计算 运维
Hadoop的HDFS的特点高吞吐量
【5月更文挑战第11天】Hadoop的HDFS的特点高吞吐量
32 4
|
1月前
|
存储 分布式计算 NoSQL
|
1月前
|
存储 分布式计算 资源调度
|
2月前
|
存储 分布式计算 Hadoop
|
2月前
|
存储 分布式计算 Hadoop
Hadoop节点HDFS数据块的作用
【5月更文挑战第19天】
32 3