Hadoop HDFS架构设计与数据读写存储原理-开发者社区-阿里云

Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】（部分图片来源于网络）

2024-04-12 985

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【4月更文挑战第3天】Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】（部分图片来源于网络）

Hadoop是一个大数据解决方案。它提供了一套分布式系统基础架构。核心内容包含 hdfs 和mapreduce。hadoop2.0 以后引入 yarn。hdfs 是提供数据存储的，mapreduce 是方便数据计算的。这篇主要说HDFS。

hdfs 对应 namenode 和 datanode。 namenode 负责保存元数据的基本信息，datanode 直接存放数据本身；
mapreduce 对应 jobtracker 和 tasktracker。 jobtracker 负责分发任务，tasktracker 负责执行具体任务；
对应到 master/slave 架构，namenode 和 jobtracker 就应该对应到【master】节点，而 datanode和 tasktracker 就应该对应到【slave】节点。
1.介绍
HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。

2.设计原理

请添加图片描述

2.1 HDFS 架构

Client

Client（代表用户）通过与 NameNode 和 DataNode 交互访问 HDFS 中的文件。 Client 提供了一个类似 POSIX 的文件系统接口供用户调用。

NameNode

整个 Hadoop 集群中只有一个 NameNode。它是整个系统的“总管”，【负责执行有关文件系统命名空间的操作，例如打开，关闭、重命名文件和目录等。它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。】负责管理 HDFS 的目录树和相关的文件元数据信息。这些信息是以“fsimage”（ HDFS ==元数据镜像==文件）和“editlog”（HDFS 文件==改动日志==）两个文件形式存放在本地磁盘，当 HDFS 重启时重新构造出来的。此外， NameNode 还负责监控各个 DataNode 的健康状态，一旦发现某个 DataNode 宕掉，则将该 DataNode 移出 HDFS 并重新备份其上面的数据。

Secondary NameNode

Secondary NameNode 最重要的任务并不是为 NameNode 元数据进行热备份，而是定期合并fsimage 和 edits 日志，并传输给 NameNode。这里需要注意的是，为了减小 NameNode 压力， NameNode 自己并不会合并 fsimage 和 edits，并将文件存储到磁盘上，而是交由Secondary NameNode 完成。

DataNode

一般而言，每个Slave节点上安装一个 DataNode，【负责提供来自文件系统客户端的读写请求，执行块的创建，删除等操作。】它负责实际的数据存储，并将数据信息定期汇报给 NameNode。 DataNode 以固定大小的 block为基本单位组织文件内容，默认情况下block 大小为 64MB。当用户上传一个大的文件到 HDFS 上时，该文件会被切分成若干个 block，分别存储到不同的 DataNode ；同时，为了保证数据可靠，会将同一个 block 以流水线方式写到若干个（默认是 3，该参数可配置）不同的 DataNode 上。这种文件切割后存储的过程是对用户
透明的。

2.2 文件系统命名空间

HDFS 的文件系统命名空间的层次结构与大多数文件系统类似 (如 Linux)，支持目录和文件的创建、移动、删除和重命名等操作，支持配置用户和访问权限，但不支持硬链接和软连接。 NameNode 负责维护文件系统名称空间，记录对名称空间或其属性的任何更改。

2.3 数据复制

由于 Hadoop 被设计运行在廉价的机器上，这意味着硬件是不可靠的，为了保证容错性，HDFS 提供了数据复制机制。HDFS 将每一个文件存储为一系列块，每个块由多个副本来保证容错，块的大小和复制因子可以自行配置（默认情况下，块大小是 128M，默认复制因子是 3）。
请添加图片描述

2.4 数据复制的实现原理

大型的 HDFS 实例在通常分布在多个机架的多台服务器上，不同机架上的两台服务器之间通过交换机进行通讯。在大多数情况下，==同一机架中的服务器间的网络带宽大于不同机架中的服务器之间的带宽==。因此 HDFS 采用机架感知副本放置策略，对于常见情况，当复制因子为 3 时，HDFS 的放置策略是：

在写入程序位于 datanode 上时，就优先将写入文件的一个副本放置在该 datanode 上，否则放在随机 datanode 上。之后在另一个远程机架上的任意一个节点上放置另一个副本，并在该机架上的另一个节点上放置最后一个副本。此策略可以减少机架间的写入流量，从而提高写入性能。
请添加图片描述
如果复制因子大于 3，则随机确定第 4 个和之后副本的放置位置，同时保持每个机架的副本数量低于上限，上限值通常为（复制系数 - 1）/机架数量 + 2 ，需要注意的是不允许同一个 dataNode 上具有同一个块的多个副本。

现在问题来了，一个3台服务器的集群，如果复制因子是1，会出现什么情况？情况是所有的数据都存放在nameNode所在的那台服务器上，这个应该没什么疑问吧。

2.5 副本的选择

为了最大限度地减少带宽消耗和读取延迟，HDFS 在执行读取请求时，优先读取距离读取器最近的副本。如果在与读取器节点相同的机架上存在副本，则优先选择该副本。如果 HDFS 群集跨越多个数据中心，则优先选择本地数据中心上的副本。

2.6 架构的稳定性

心跳机制和重新复制

每个 DataNode 定期向 NameNode 发送心跳消息，如果超过指定时间没有收到心跳消息，则将DataNode 标记为死亡。NameNode 不会将任何新的 IO 请求转发给标记为死亡的 DataNode，也不会再使用这些 DataNode 上的数据。由于数据不再可用，可能会导致某些块的复制因子小于其指定值，NameNode 会跟踪这些块，并在必要的时候进行重新复制。

数据的完整性

由于存储设备故障等原因，存储在 DataNode 上的数据块也会发生损坏。为了避免读取到已经损坏的数据而导致错误，HDFS 提供了数据完整性校验机制来保证数据的完整性，具体操作如下：

当客户端创建 HDFS 文件时，它会计算文件的每个块的 ==校验和==，并将校验和存储在同一 HDFS 命名空间下的单独的隐藏文件中。当客户端检索文件内容时，它会验证从每个 DataNode 接收的数据是否与存储在关联校验和文件中的校验和匹配。如果匹配失败，则证明数据已经损坏，此时客户端会选择从其他 DataNode 获取该块的其他可用副本。

元数据的磁盘故障

FsImage 和 EditLog 是 HDFS 的核心数据，这些数据的意外丢失可能会导致整个 HDFS 服务不可用。为了避免这个问题，可以配置 NameNode 使其支持 FsImage 和 EditLog 多副本同步，这样FsImage 或 EditLog 的任何改变都会引起每个副本 FsImage 和 EditLog 的同步更新。

支持快照

快照支持在特定时刻存储数据副本，在数据意外损坏时，可以通过回滚操作恢复到健康的数据状态。

3.特点

高容错：由于 HDFS 采用数据的多副本方案，所以部分硬件的损坏不会导致全部数据的丢失。
高吞吐量：HDFS 设计的重点是支持高吞吐量的数据访问，而不是低延迟的数据访问。
大文件支持：HDFS 适合于大文件的存储，文档的大小应该是是 GB 到 TB 级别的。
简单一致性模型：HDFS 更适合于一次写入多次读取 (write-once-read-many) 的访问模型。支持将内容追加到文件末尾，但不支持数据的随机访问，不能从文件任意位置新增数据。
跨平台移植性：HDFS 具有良好的跨平台移植性，这使得其他大数据计算框架都将其作为数据持久化存储的首选方案。

4.存储原理

HDFS写数据原理
HDFS读数据原理
HDFS故障类型和其检测方法

第二部分：读写故障的处理

第三部分：DataNode 故障处理

副本布局策略：

Hadoop【基础知识 01】【分布式文件系统HDFS设计原理+特点+存储原理】（部分图片来源于网络）

1.介绍