《Hadoop海量数据处理:技术详解与项目实战(第2版)》一2.2 Hadoop架构-阿里云开发者社区

开发者社区> 大数据> 正文

《Hadoop海量数据处理:技术详解与项目实战(第2版)》一2.2 Hadoop架构

简介:

本节书摘来异步社区《Hadoop海量数据处理:技术详解与项目实战(第2版)》一书中的第2章,第2.2节,作者: 范东来 责编: 杨海玲,更多章节内容可以访问云栖社区“异步社区”公众号查看。

2.2 Hadoop架构

Hadoop主要由两部分构成:分布式文件系统HDFS和统一资源管理和调度系统YARN。正如前文所述,分布式文件系统主要是用于海量数据的存储,而YARN主要是管理集群的计算资源并根据计算框架的需求进行调度。本节主要是为了让读者对Hadoop的架构有个比较清晰的了解,为后面的安装和学习打下基础。

2.2.1 Hadoop HDFS架构

构成HDFS集群的主要是两类节点,并以主从(master/slave)模式,或者说是管理者-工作者的模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。还有一种节点叫SecondaryNameNode,作为NameNode镜像数据备份。如图2-2所示,图中的所有物理节点构成了一个HDFS集群,而NameNode、DataNode和SecondaryNameNode其实是各自节点上运行的守护进程。所以NameNode既是守护进程,也可以指运行NameNode守护进程的节点。客户端代表用户与整个文件系统交互的客户端。


2

表2-3列出了HDFS中守护进程的数目及其作用。


b3

2.2.2 YARN架构

构成YARN集群的是两类节点:ResourceManager和NodeManager。同HDFS类似,YARN也采用主从(master/slave)架构,如图2-3所示。


3

ResourceManager和NodeManager也是两种守护进程,运行在各自的节点上。表2-4列出了ResourceManager和NodeManager守护进程的数目和作用。


b4

2.2.3 Hadoop架构

从上面的介绍读者可以知道,HDFS集群和YARN集群其实由一些守护进程组成,而所有这些守护进程和运行它们的节点就构成了Hadoop集群。如图2-4所示,这个集群的NameNode进程和ResourceManager进程在一个节点上运行,而DataNode和NodeManager在同一个节点上运行着。

值得一提的是,DataNode和NodeManager需要配对部署在同一个节点,但NameNode和ResourceManager却并不一定部署在同一个节点。在生产环境中,为了性能和稳定性考虑,强烈建议NameNode和ResourceManager分开部署。如图2-5所示(为了突出重点,这里省略了SecondaryNameNode和客户端,实际上是存在的),这样也是一个标准的Hadoop集群。


5

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章