hadoop之hdfs概念(7)

简介: hadoop之hdfs概念(7)

HDFS


1.概念


HDFS,它是一个文件系统,全称:Hadoop Distributed File System,用于存储文件通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。


2.组成


1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。


2)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。


3)DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。


4)Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。


3.HDFS 文件块大小


HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M

HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而,传输一个由多个块组成的文件的时间取决于磁盘传输速率。


如果寻址时间约为10ms,而传输速率为100MB/s,为了使寻址时间仅占传输时间的1%,我们要将块大小设置约为100MB。默认的块大小128MB。

块的大小:


10ms*100*100M/s = 100M


1dc618a0ed9580ce8bfa6facb208c08f.png


4.命令


5d4c6812c8535adbb050f4ddf2e1bce8.png

HFDS命令行操作


1)基本语法


bin/hadoop fs 具体命令


2)参数大全


bin/hadoop fs


Usage: hadoop fs [generic options]
  [-appendToFile <localsrc> ... <dst>]
  [-cat [-ignoreCrc] <src> ...]
  [-checksum <src> ...]
  [-chgrp [-R] GROUP PATH...]
  [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]
  [-chown [-R] [OWNER][:[GROUP]] PATH...]
  [-copyFromLocal [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
  [-copyToLocal [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
  [-count [-q] [-h] [-v] [-t [<storage type>]] [-u] [-x] <path> ...]
  [-cp [-f] [-p | -p[topax]] [-d] <src> ... <dst>]
  [-createSnapshot <snapshotDir> [<snapshotName>]]
  [-deleteSnapshot <snapshotDir> <snapshotName>]
  [-df [-h] [<path> ...]]
  [-du [-s] [-h] [-x] <path> ...]
  [-expunge]
  [-find <path> ... <expression> ...]
  [-get [-f] [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]
  [-getfacl [-R] <path>]
  [-getfattr [-R] {-n name | -d} [-e en] <path>]
  [-getmerge [-nl] [-skip-empty-file] <src> <localdst>]
  [-help [cmd ...]]
  [-ls [-C] [-d] [-h] [-q] [-R] [-t] [-S] [-r] [-u] [<path> ...]]
  [-mkdir [-p] <path> ...]
  [-moveFromLocal <localsrc> ... <dst>]
  [-moveToLocal <src> <localdst>]
  [-mv <src> ... <dst>]
  [-put [-f] [-p] [-l] [-d] <localsrc> ... <dst>]
  [-renameSnapshot <snapshotDir> <oldName> <newName>]
  [-rm [-f] [-r|-R] [-skipTrash] [-safely] <src> ...]
  [-rmdir [--ignore-fail-on-non-empty] <dir> ...]
  [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]
  [-setfattr {-n name [-v value] | -x name} <path>]
  [-setrep [-R] [-w] <rep> <path> ...]
  [-stat [format] <path> ...]
  [-tail [-f] <file>]
  [-test -[defsz] <path>]
  [-text [-ignoreCrc] <src> ...]
  [-touchz <path> ...]
  [-truncate [-w] <length> <path> ...]
  [-usage [cmd ...]]


3)常用命令实操


(1)-help:输出这个命令参数


bin/hdfs dfs -help rm


(2)-ls: 显示目录信息


hadoop fs -ls /
hadoop fs -lsr /


(3)-mkdir:在hdfs上创建目录


hadoop fs  -mkdir  -p  /hdfs路径


(4)-moveFromLocal从本地剪切粘贴到hdfs


hadoop  fs  -moveFromLocal  本地路径  /hdfs路径


(5)–appendToFile :追加一个文件到已经存在的文件末尾


hadoop  fs  -appendToFile  本地路径  /hdfs路径


(6)-cat :显示文件内容


hadoop fs -cat /hdfs路径


(7)-tail -f:监控文件


hadoop  fs  -tail -f /hdfs路径


(8)-chmod、-chown:linux文件系统中的用法一样,修改文件所属权限


hadoop  fs  -chmod  777  /hdfs路径
hadoop  fs  -chown  someuser:somegrp   /hdfs路径


(9)-cp :从hdfs的一个路径拷贝到hdfs的另一个路径


hadoop  fs  -cp  /hdfs路径1  / hdfs路径2


(10)-mv:在hdfs目录中移动/重命名 文件


hadoop  fs  -mv  /hdfs路径  / hdfs路径


(11)-get:等同于copyToLocal,就是从hdfs下载文件到本地


hadoop fs -get / hdfs路径 ./本地路径


(12)-getmerge :合并下载多个文到linux本地,比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,…(注:是合成到Linux本地)


hadoop fs -getmerge /aaa/log.* ./log.sum

合成到不同的目录:


hadoop fs -getmerge /hdfs1路径 /hdfs2路径 /


(13)-put:等同于copyFromLocal


hadoop  fs  -put  /本地路径  /hdfs路径


(14)-rm:删除文件或文件夹


hadoop fs -rm -r /hdfs路径


(15)-df :统计文件系统的可用空间信息


hadoop fs -df -h / hdfs路径


(16)-du统计文件夹的大小信息


hadoop fs -du -s -h / hdfs路径
1
188.5 M /user/hfl/wcinput
hadoop fs -du  -h / hdfs路径
1
188.5 M / hdfs路径
97 / hdfs路径


(17)-count:统计一个指定目录下的文件节点数量


hadoop fs -count /aaa/
1
hadoop fs -count / hdfs路径
1
1 2 197657784 / hdfs路径

第一个参数嵌套文件层级; 第2个参数是 包含文件的总数


(18)-setrep:设置hdfs中文件的副本数量:3是副本数,可改


hadoop fs -setrep 3 / hdfs路径

46a9d80a6e05e4e3b19d57a0ee70bcdf.png

这里设置的副本数只是记录在namenode的元数据中,是否真的会有这么多副本,还得看datanode的数量。因为目前只有3台设备,最多也就3个副本,只有节点数的增加到10台时,副本数才能达到10。


相关文章
|
3月前
|
分布式计算 Kubernetes Hadoop
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
大数据-82 Spark 集群模式启动、集群架构、集群管理器 Spark的HelloWorld + Hadoop + HDFS
206 6
|
3月前
|
SQL 分布式计算 监控
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
Hadoop-20 Flume 采集数据双写至本地+HDFS中 监控目录变化 3个Agent MemoryChannel Source对比
75 3
|
3月前
|
分布式计算 Hadoop Unix
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
Hadoop-28 ZooKeeper集群 ZNode简介概念和测试 数据结构与监听机制 持久性节点 持久顺序节点 事务ID Watcher机制
58 1
|
3月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
58 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
128 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
59 0
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
74 0
|
3月前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
91 2
|
18天前
|
存储 分布式计算 大数据
Flume+Hadoop:打造你的大数据处理流水线
本文介绍了如何使用Apache Flume采集日志数据并上传至Hadoop分布式文件系统(HDFS)。Flume是一个高可用、可靠的分布式系统,适用于大规模日志数据的采集和传输。文章详细描述了Flume的安装、配置及启动过程,并通过具体示例展示了如何将本地日志数据实时传输到HDFS中。同时,还提供了验证步骤,确保数据成功上传。最后,补充说明了使用文件模式作为channel以避免数据丢失的方法。
54 4
|
2月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
138 2

相关实验场景

更多