大数据开发笔记（一）：HDFS介绍

2022-10-18 319

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 总结：Hadoop由三部分组成：HDFS、分布式计算MapReduce和资源调度引擎Yarn。

一、HDFS介绍

1.HDFS概念：

总结：Hadoop由三部分组成：HDFS、分布式计算MapReduce和资源调度引擎Yarn。

HDFS 是一个分布式文件系统，负责文件存储。它的文件系统和平时看到的Linux很像，有目录结构，顶层目录是/，存放着文件，以及可以对文件进行增删，修改，移动等功能，不同的是它具有分布式的特点，hdfs的文件系统可以横跨多个机器，文件可能是存储在不同机器上的，但用户在使用时会被当作是存储在一台机器上。

2.Block块介绍：

在HDFS中有一个核心概念-block块。HDFS上的文件，是按照128M为单位，切分成一个个block的，分散的存储在集群的不同数据节点上。128M是指上限，实际可能block文件的大小不到128M。而为了保证数据的可用及容错，每一个block都可以设置副本数，默认是3，在集群搭建中，在hdfs-site.xml文件就可以设置默认副本数。每一个block的副本并不会存放在同一个服务器上面，而是分开存储在不同服务器，假如第一个block块暂时奔溃了，HDFS的主节点就会为了维持设置的block副本数，重新在其它服务器上创建一模一样的block1。

3.HDFS优缺点：

HDFS具有高可用、容错率高、可扩展的特点。

（1）HDFS的优点

高容错性

①：数据自动保存多个副本。它通过增加副本的形式，提高容错性

②：某一个副本丢失以后，它可以自动恢复

适合批处理即就近原则

①：移动计算而非非数据，数据位置暴露给计算机框架

②：本地化，数据不移动，代码（任务）移动。

适合处理大数据

①：数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据

②：文件规模：能够处理百万规模以上的文件数量，数量相当之大

可构建在廉价机器上，通过多副本机制，提高可靠性

（2）HDFS的缺点

不适合低延时数据访问，比如毫秒级的存储数据，是做不到的。寻址时间长，适合读取大文件，低延迟与高吞吐率。

不适合小文件存储

占用NameNode大量内存，寻找时间超过读取时间

不支持并发写入，文件随机修改

①：一个文件只能有一个写，不允许多个线程同时写

②：仅支持数据append（追加），不支持文件的修改

二、HDFS整体架构介绍

40f67e087d41d2fe59829aa6bcf80efb_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png

总结：HDFS的体系架构是典型的主从架构Master/Slave，有客户端和服务端，客服端通过Namenode主节点来访问存放在各个Datanode上的文件信息，Namenode负责管理每个子节点，同时还有secondaryNamenode做备份主节点。

1.HDFS结构介绍

1）Client：就是客户端。

（1）文件切分。文件上传HDFS的时候，Client将文件切分成一个一个的Block，然后进行存储；

（2）与NameNode交互，获取文件的位置信息；

（3）与DataNode交互，读取或者写入数据；

（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS；

（5）Client可以通过一些命令来访问HDFS；

2）NameNode：就是Master，它是一个主管、管理者。

（1）管理HDFS的名称空间；namespace

（2）管理数据块（Block）映射信息；

（3）配置副本策略（默认）；3

（4）处理客户端读写请求。

3） DataNode：就是Slave。NameNode下达命令，DataNode执行实际的操作。

（1）存储实际的数据块；

（2）执行数据块的读/写操作。

4） SecondaryNameNode：并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

（1）辅助NameNode，分担其工作量；

（2）定期合并Fsimage和Edits，并推送给NameNode；

（3）在紧急情况下，可辅助恢复NameNode。

针对上述组件形成以下工作机制：

在Namenode管理每个datanode过程中，有心跳机制能让namenade周期性地从集群中的每个datanode接受心跳信号和块状态报告，以便得知各集群节点是否正常运行，同时在hadoop集群刚启动时也会用到心跳机制，此时会先进入一个安全模式，等心跳确认99.9%的节点都正常后才进行正常工作，允许外界写入文件到HDFS。(此处心跳机制在下文详述)

HDFS有一个重要特性，那就是高可用，实现高可用最关键的是消除单点故障，会用到刚才体系架构中提到的SecondaryNamenode，概括来说就是当处于active状态的Namenode节点出问题后，他们之间有zookeeperFC会通知另一个暂时处于Standby状态的SecondaryNamenode准备替换工作，zookeeperFC是用来协调监控NameNode的，通知后原来的NameNode变成Standby状态，而SecondaryNamenode进行运行工作。

HDFS的联邦对应于HDFS的可拓展的特点，可以解决内存受限的问题，提高吞吐量和隔离不同类型的应用，但一般集群规模达到几千台的情况下才可能用到联邦（联邦，即支持多个namenode主节点，每个Namenode分管一部分的元数据目录，并共享所有datanode存储资源）。

2.HDFS的机制是指什么，它有什么作用？

HDFS的机制是指它的心跳机制，我们知道HDFS是典型的Master/Slave主从架构，由一个Namenode管理多个Datanode过程中HDFS会用到它的心跳机制，其工作原理如下：

1.首先master启动的时候，会开一个icp server；

2.接着各个slave从节点启动时，连接上master，并且每隔3秒就向master发送一个icp server的”心跳“，携带状态信息；

3.然后master通过这个心跳的返回值，得知从节点的状态，并向从节点传达命令。

心跳机制的作用有三点：

（1）Namenode通过心跳机制全权管理数据，它周期性地从集群中的每个namenode接受心跳信号和块状态报告，有心跳意味着从节点工作正常，块状态报告中也会有该datanode上所有数据的列表。

（2）Datanode启动后向Namenode注册，并通过心跳上报数据块列表，3秒发送一次心跳，返回并执行Namenodede命令，如果10分钟都没有发送，代表这个Datanode出问题不可用。

（3）hadoop集群刚启动时会进入一个安全模式，这个安全模式也会用到心跳机制，只有Namenode得到99.9%datanode的反馈后安全模式才会解除。

三、HDFS文件的读写流程

8455df461f353248c3bfd2e52ca9266f_watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM2ODE2ODQ4,size_16,color_FFFFFF,t_70.png

（1）HDFS读流程

在获取文件名称后，运行在JVM虚拟机上的HDFS客户端，通过文件系统调用Namenode上的RPC方法（远程调用），让Namenode返回给客户端关于块的位置信息

客户端获得位置信息后，就通过FSDataInputStream找到不同DataNode节点建立连接并读取数据

数据源源不断的写入客户端，假设第一个block读取完成，就关闭指向该DataNode的连接，接着读下一个，以此类推。

在读取数据过程中，存储在datanode的block本身有一个crc32位的校验码，当读取给客户端时会重新生成一个crc校验码，并对比前后两次校验码，相等说明读取的跟存入的是同一个文件。

（2）HDFS写流程

客户端要向HDFS写数据，首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode，然后，客户端按顺序将文件逐个block传递给相应datanode，并由接收到block的datanode负责向其他datanode复制block的副本。

在写入数据的过程中，底层会有一个data queue队列和ack queue队列，写入数据时，block块是按一个一个字节来将数据写入到一个名为chunk的小块（chunk中包含4byte的校验值），写满chunk后再放到一个package中，后续每个package要加入到data queue队列。

data queue中的package会逐步被发送到对应的datanode及其副本，同时还会复制一份写到ack queue队列中。待package写入完成后会重新生成校验值，这时拿新的校验值和ack queue中的package的校验值一一比对，如果比对成功，ack queue就删除对应package，如果比对不成功那么ack就把package发送回data queue再传输写入一次

(3)HDFS存储大量的小文件会发生什么问题？

首先Namenode存储着文件系统的元数据，元数据记录了文件、块、目录，大约占150字节大小。如果hdfs的小文件过多，那么会占用元数据中记录文件的内存，给Namenode造成压力，影响hadoop存储和访问的效率。

通常可以通过两种方法处理：

HAR文件方案：启动mr程序，通过hadoop archive命令将小文件压缩成一个har文件，适用于文件归档。

Sequence Files方案：还不太会用，暂不说明。

(4)block块为什么设置比较大？是不是越大越好？

block的大小是由磁盘传输速度决定的，比如磁盘传输速度是200MB/S，block一般设定256MB。

如果block太大，那么从磁盘传输数据的时间会明显变慢，另一方面，mapreduce中的map任务一般一次处理一个block块，如果块过大，mr的处理速度也会变慢。如果block太小，那么就会跟hdfs存储大量小文件的问题一样，会给namenode造成内存的压力。

MapReduce分布式计算

1.MapReduce的shuffle过程是怎么样的？

MapReduce的shuffle过程实际上包含在map阶段和reduce阶段，也就是Map Shuffle和Reduce Shuffle；

Map Shuffle的过程是对map的结果进行分区排序，然后按照同一分区的输出合并一起写入到磁盘中，最终得到一个分区有序的文件。

大致流程是：

从map task输出的kv对数据会先写入到一个环形缓冲区，大小为100MB，但写满80%时就会溢出写入到磁盘文件；

在写入到磁盘文件的过程中，会对kv对进行HashPartition分区和排序，HashPartition是mr程序默认的分区方法，它会对kv对的key求hash值，然后对reduce的个数求模运算，最后得到的分区号作为分配给不同reduce的根据，分区后具有相同分区号的键值对存储在一起，每个分区里面的键值对又按key值进行排序。

接下来会判断是否需要combine压缩具有同一键的键值对数据

然后作为map输出准备传输给reduce

Reduce Shuffle过程中，是从reduce端通过网络传输向磁盘获取map输出开始，中间reduce shuffle也会把键相同的键值对数据放到一起，然后排序合并，最终形成一个整体有序的数据块，但这个过程是一直到调用reduce方法之前，也就是reduce shuffle并不包括调用reduce方法、

2.Combiner的作用

Combiner为了避免map task和reduce task之间的数据传输压力而设置的，它允许用户针对map task的输出指定一个合并函数，这个函数可以压缩具有同一key值的键值对，从而减少传输到reduce的数据量，减少网络带宽和reduce的负载。

但实际上combiner是作为可选项，有没有设置或者设置多少次都不会影响最终结果，在shuffle过程中会判断是否设置而进行压缩。

3.如何诊断是否有数据倾斜存在并处理？

数据倾斜有两种原因：

（1）某一个key对应的键值对数量要远远大于其它键的键值对数量；

（2）部分数据记录的大小远超过平均值。

可以在MR程序的reduce方法中追踪每个键的最大值，并且设置阈值，当超过该阈值时就可以认为发生了数据倾斜，可以输出到日志文件进行分析。

第二种是很对编写MR程序时，从业务层面去考虑自定义的分区键是否合理。就跟ADS库建表时可以默认指定哪个字段作为分区键。

MR程序中改用TotalOrderPartitioner替换HashPartitioner，它可以通过对原始数据进行抽样得到的结果集来预设分区边界值，也就是能找出导致数据倾斜的key

大数据开发笔记（一）：HDFS介绍

一、HDFS介绍

1.HDFS概念：

2.Block块介绍：

3.HDFS优缺点：

二、HDFS整体架构介绍

1.HDFS结构介绍

2.HDFS的机制是指什么，它有什么作用？

三、HDFS文件的读写流程

（1）HDFS读流程

（2）HDFS写流程

(3)HDFS存储大量的小文件会发生什么问题？

(4)block块为什么设置比较大？是不是越大越好？

MapReduce分布式计算

1.MapReduce的shuffle过程是怎么样的？

2.Combiner的作用

3.如何诊断是否有数据倾斜存在并处理？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

大数据开发笔记（一）：HDFS介绍

一、HDFS介绍

1.HDFS概念：

2.Block块介绍：

3.HDFS优缺点：

二、HDFS整体架构介绍

1.HDFS结构介绍

2.HDFS的机制是指什么，它有什么作用？

三、HDFS文件的读写流程

（1）HDFS读流程

（2）HDFS写流程

(3)HDFS存储大量的小文件会发生什么问题？

(4)block块为什么设置比较大？是不是越大越好？

MapReduce分布式计算

1.MapReduce的shuffle过程是怎么样的？

2.Combiner的作用

3.如何诊断是否有数据倾斜存在并处理？

热门文章

最新文章

相关课程

相关电子书

相关实验场景