开发者社区> housezhang> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

HDFS 是如何实现大数据高容量、可靠的存储和访问的。

简介: 大数据数据量大、类型多种多样、快速的增长等特性,那么HDFS是如何去解决大数据存储、高可用访问的了?
+关注继续查看

对于一个企业大数据应用来说,搞定了大数据存储基本上就解决了大数据应用最重要的问题。Google 三驾马车的第一驾是GFS,Hadoop最先开始设计的就是HDFS,可见分布式存储的重要性,整个大数据生态计算框架多种多样,但是大数据的存储却没有太大的变化,HDFS依旧是众多分布式计算的基础。当然HDFS也有许多缺点,一些对象存储等技术的出现给HDFS的地位带来了挑战,但是HDFS目前还是最重要的大数据存储技术,新的计算框架想要获得广泛应用依旧需要支持HDFS。大数据数据量大、类型多种多样、快速的增长等特性,那么HDFS是如何去解决大数据存储、高可用访问的了?

HDFS系统架构

Hadoop分布式文件系统的设计目标就是把数以千计的服务器管理起来,将这么大规模的服务器当作一个分布式文件系统进行管理,以提供PB存储容量应对大量数据的存储,同时供计算框架和上层应用提供服务,可以像普通文件系统一样存储、访问大规模的文件数据。具体的实现是将数据进行分块后进行并行的存储以及冗余存储,如下系统架构:


xxxx.png


图中hdfs中有两个关键组件,一个是Namenode负责对分布式文件系统元数据的管理,存储了文件名、路径、副本数量、数据块id以及存储的Datanode节点等信息,另一个是Datanode节点,负责文件数据的存储和读写操作,HDFS将文件数据分割成若干数据块,每个DataNode存储一部分数据块,这样文件就分布存储在整个HDFS服务器中。

大量数据存储的解决?

从hdfs系统架构就可以看出,通过将大文件切分成小的数据块存储到不同服务器上,可以实现一个大文件的存储,同时通过联合多个服务器多块硬盘实现整个存储系统的大容量,大文件的分片存储,不同分片可以进行并行读写操作,进而实现数据的高速访问。

HDFS文件系统高可用设计?

在一个分布式系统中,节点失效是比较常见的,在HDFS系统中不可避免的遇到网络问题、磁盘故障、DataNode节点故障、Namenode节点故障,那么HDFS是如何应对这些问题,保障系统的高可用的了。

首先我们来看下数据存储的故障容错,这块主要是磁盘介质,存储数据可能会出现错乱,这个HDFS主要会对存储在DataNode上的数据块,计算并存储校验和,并计算Datanode读取数据的校验和,如果异常就会转而去读取其他DataNode节点的备份数据。

其次,节点故障,磁盘,HDFS节点故障主要是通过心跳机制,DataNode会定期通过心跳去NameNode保持联系,Namenode监测到DataNode超时没有心跳后,就会查其元数据,通知其他节点复制失效节点上的数据块到其他服务器上,保证副本数量,磁盘故障的话DataNode也是类似处理,DataNode检测到磁盘故障后,将故障快反馈给namenode进行数据块复制。

接着NameNode鼓掌容错,作为HDFS核心节点,记录着HDFS文件分配表信息,所有的文件路径和数据块存储信息都保存在NameNode上,NameNode故障将导致整个集群的不可用,HDFS设计采用主从热备提高系统的可用性。

HDFS文件系统高吞吐量设计?

在文件操作中,NameNode负责文件元数据的操作,DataNode负责处理文件的读写请求,文件数据流不会经过NameNode的处理,只会跟存储在具体DataNode进行联系,因此NameNode不会成为系统的瓶颈,成百上千台DataNode节点应对文件内容数据流的读写,其吞吐量大大提高了。

HDFS的缺点

数据访问延时较长,数据以分块的方式存储在磁盘当中,读取需要经过Namenode到DataNode网络访问流程,以及磁盘寻址的过程,不如内存缓存访问高效以及不如关系型数据库利用索引加快数据访问特性。

不适合大量小文件存储,小文件太多造成文件元数据过多,超出了NameNode的处理能力,容易造成NameNode的瓶颈。

文件写入支持单一,只支持追加文件,不支持随机文件写入以及文件更新。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
HBase与HDFS之间的WAL(HLog)存储机制答疑解惑
HBase与HDFS之间的WAL(HLog)存储机制答疑解惑
0 0
Hadoop中HDFS的读写流程(面试重点)、为什么搜不到BlockPlacementPolicyDefault、网络拓扑-节点距离计算、机架感知(副本存储节点选择)
Hadoop中HDFS的读写流程(面试重点)、为什么搜不到BlockPlacementPolicyDefault、网络拓扑-节点距离计算、机架感知(副本存储节点选择)
0 0
Hadoop中HDFS的读写流程(面试重点)、为什么搜不到BlockPlacementPolicyDefault、网络拓扑-节点距离计算、机架感知(副本存储节点选择)
(1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 (2)NameNode返回是否可以上传。 (3)客户端请求第一个 Block上传到哪几个DataNode服务器上。 (4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。 (5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3,将这个通信管道建立完成。 (
0 0
CDH在云上利用文件存储HDFS实现存储计算分离
阿里云文件存储HDFS服务是阿里云专门针对先进的存储计算分离架构下的大数据分析场景定制推出的文件存储服务。文件存储HDFS采用全自研的底层架构,有效规避了开源HDFS系统的诸多短板,并提供标准的HDFS访问协议,用户无需对现有大数据分析应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、高可靠和高可用等特性的托管型分布式文件系统。
641 0
HDFS存储架构剖析
HDFS架构图(Hadoop distribute File System) image.png NameNode 介绍 Namenode 是一个中心服务器,单一节点(简化系统的设计和实现),负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。
1207 0
EMR使用OSS还是云盘HDFS存储的选择讨论
使用EMR如何选择数据存储方案,这里分别列举各种场景下两种方案的优缺点,各位可以根据实际情况,选择最合适自己业务的一种方式。
4337 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
海量数据分布式存储——Apache HDFS之最新进展
立即下载
海量结构化和非结构化大数据Hadoop集群规划
立即下载
大数据时代的存储 ——HBase的实践与探索
立即下载