hadoop from rookie to ninja - 1. Basic Architecture(基础架构)

简介: 1. Daemons(守护进程) 新老架构 老的: Apache Hadoop 1.x (MRv1)   新的: Apache Hadoop 2.x (YARN)-Yet Another Resource Negotiator   1-1) Apache Hadoop 1.

1. Daemons(守护进程)

新老架构

老的:

Apache Hadoop 1.x (MRv1)
 
新的:
Apache Hadoop 2.x (YARN)-Yet Another Resource Negotiator
 
1-1) Apache Hadoop 1.x (MRv1) 包含如下后台进程:
• Namenode (名称节点)
• Secondary namenode (第二名称节点)
• Jobtracker (工作跟踪器)
• Datanode (数据节点)
• Tasktracker (任务跟踪器)
 
  a) 所有的后台进程是运行在自己的JVM虚拟机中的Java服务。
  b) 主从模式
  namenode 和 jobtracker 是 master daemons
  datanode 和 tasktracker 是 slave daemons
 
 2. NameNode(名称节点)
 
2-1) 名称节点是master daemon, 它负责存储HDFS文件系统上所有文件的位置信息。
 
名称节点从不存储实际数据,换句话说,它存储所有的元数据(metadata)。
 
(备注: 元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),

主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。)

 
2-2) 名称节点在内存(RAM)中维护所有的元数据,这样客户端可以快速得到请求它的响应。
因此,需要在有较多内存分配的服务器上运行名称节点。(非常重要!!)
HDFS中的文件数量越多,名称节点所消耗的内存也越高。
 

2-3) 由于在内存中存储元数据信息,因此名称节点后台进程也同时在硬盘上存储了一个用来持久化元数据的检查点文件,该文件名叫fsimage

每当集群中的文件发生 新增/删除/更新 操作的时候,动作信息会被更新到一个叫做edits log的日志文件中。

更新完日志后,内存中的元数据信息也会相应地更新。
需要注意的是: fsimage文件不会针对每次写操作进行更新。
 
有人要问,如果名称节点的后台进程重启了怎么办,信息不都在内存中吗?丢失了呀!
答案是不会,下列操作会发生:
1. 从磁盘上读取fsimage文件的信息并把它加载到内存。
2. 从edits log读取所有的操作信息,并把它还原到内存中。
3. 最后把修改后的内存中的信息再写入磁盘上的fsimage文件。
 
2-4) Hadoop 1.x名称节点的弱点以及Hadoop 2.x的改进
 

a. Hadoop 1.x里的名称节点是单节点的,因此,如果该服务器宕机了的话,整个HDFS文件系统将不可使用了。

为了解决这种情况,以前管理员需要配置下,把fsimage同时写到本地磁盘和网络上的远程磁盘。

那台新备份的机器其实相当于冷备份,在名称节点宕机的时候可以临时启动。

 

b. Hadoop 2.x支持高可用(High Availability - HA)

部署2台名称节点的服务器, 分别是active和passive, 如果active的那台服务器宕机了, passive的那台服务器会接管

控制权,相当于双机热备份。

 

3. Secondary namenode(第二名称节点)

 

 

 
 

 

 
 
目录
相关文章
|
2月前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
147 2
|
2月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
619 0
|
2月前
|
存储 分布式计算 Hadoop
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
276 0
|
28天前
|
存储 分布式计算 Hadoop
Hadoop是一个强大的分布式系统基础架构
【6月更文挑战第17天】Hadoop是一个强大的分布式系统基础架构
123 53
|
10天前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
16 2
|
25天前
|
缓存 负载均衡 Java
Spring Boot 优雅实现多活架构(Active-Active Architecture)
【6月更文挑战第20天】实现多活架构(Active-Active Architecture)意味着在多个地理位置或多个数据中心同时运行应用系统,使其具备高可用性、灾难恢复和负载均衡能力。以下从理论到实践详细介绍如何使用 Spring Boot 构建多活系统。
25 6
|
25天前
|
人工智能 NoSQL 关系型数据库
主从模式(Master-Slave Architecture)在传统的计算机科学中指的是一种分布式系统架构
主从模式(Master-Slave Architecture)在传统的计算机科学中指的是一种分布式系统架构
83 5
|
24天前
|
分布式计算 资源调度 Hadoop
分布式系统详解--架构(Hadoop-克隆服务器)
分布式系统详解--架构(Hadoop-克隆服务器)
26 1
|
2月前
|
存储 SQL 分布式计算
Hadoop分布式架构
【5月更文挑战第8天】Hadoop分布式架构
30 4
|
2月前
|
资源调度 分布式计算 Hadoop
【Hadoop Yarn】YARN 基础架构分析
【4月更文挑战第7天】【Hadoop Yarn】YARN 基础架构分析