Hadoop简介和体系架构

2023-08-07 494

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

任务调度 XXL-JOB 版免费试用，400 元额度，开发版规格

注册配置 MSE Nacos/ZooKeeper，182元/月

云原生网关 MSE Higress，422元/月

简介： Hadoop简介和体系架构

2．1 Hadoop简介

自从大数据的概念被提出后，出现了很多相关技术，其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop，它就像软件发展史上的Window、Linux、Java一样，它的出现给接下来的大数据技术发展带来了巨大的影响。很多知名公司都加入Hadoop相关项目的开发中，如Facebook、Yahoo等，围绕大数据Hadoop技术产生了一系列大数据的相关技术

如 Spark、Hive、HCatalog、HBase、Zookeeper、Oozie、Pig和Sqoop等，这些项目组成了大数据技术的开源生态圈，开源的Hadoop项目极大的促进了大数据技术在很多行业的应用发展

本章将详细介绍hadoop的由来和相关项目，最新的hadoop2.0的体系架构，以及在学习hadoop前，必须掌握的技术基础（Java语言和编程、关系型数据库、Linux操作系统等）

2．1．1 Hadoop由来

Hadoop起源于Google的三大论文：

GFS：Google的分布式文件系统Google File System

MapReduce：Google的MapReduce开源分布式并行计算框架

BigTable：一个大型的分布式数据库

演变关系

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

2．1．2 Hadoop发展历程

2．1．3 Hadoop生态系统

图中涉及的技术名词解释如下：

1、Sqoop：Sqoop是一款开源的工具，主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递，可以将一个关系型数据库（例如：MySQL，Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2、Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

3、Kafka：Kafka是一种高吞吐量的分布式发布订阅消息系统，有如下特性：

（1）通过O(1)的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

（2）高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。

（3）支持通过Kafka服务器和消费机集群来分区消息。

（4）支持Hadoop并行数据加载。

4、Storm：Storm用于“连续计算”，对数据流做连续查询，在计算时就将结果以流的形式输出给用户。

5、Spark：Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

6、Oozie：Oozie是一个管理Hadoop作业（job）的工作流程调度管理系统。

7、Hbase：HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。

8、Hive：Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

10、R语言：R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。

11、Mahout：Apache Mahout是个可扩展的机器学习和数据挖掘库。

12、ZooKeeper：Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。

ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。

2．2 Hadoop的体系架构

2．2．1 分布式文件系统HDFS

HDFS 是一种分布式文件系统，为在商用硬件上运行而设计。HDFS具有高度容错能力，旨在部署在低成本的硬件上。HDFS提供对应用程序数据的高吞吐量访问，适用于具有大型数据集的应用程序

HDFS采用 Master/Slave 的架构来存储数据，该架构主要由4个部分组成

1.Client：切片，用来与NameNode交互

2.NameNOde节点

3.DataNode节点

4.SecondaryNameNode节点

2．2．2 分布式计算框架MapReduce

Hadoop MapReduce是一个软件框架，用于轻松编写应用程序，以可靠容错的方式在大型集群的商用硬件上并行处理大量数据。

MapReduce作业通常将输入数据集拆分为独立的块，这些块由Map任务以完全并行的方式处理。框架对地图的输出进行排序然后输入到Reduce任务中。

MapReduce将计算过程分为两个阶段：Map和Reduce

1.Map阶段并行处理输入数据

2.Reduce阶段对Map结果进行汇总

2．2．3 分布式资源调度系统YARN

从YARN的架构图来看，它主要由ResourceManager和ApplicationMaster、NodeManager、 ApplicationMaster和Container等组件组成

ResourceManager（RM）

YARN分层结构的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。

ResourceManager 将各个资源部分（计算、内存、带宽等）精心安排给基础NodeManager（YARN 的每节点代理）。ResourceManager还与 ApplicationMaster 一起分配资源，与NodeManager 一起启动和监视它们的基础应用程序。在此上下文中，ApplicationMaster 承担了以前的 TaskTracker 的一些角色，ResourceManager 承担了 JobTracker 的角色。

1.处理客户端请求；

2.启动或监控ApplicationMaster；

3.监控NodeManager；

4.资源的分配与调度。

NodeManager（NM）

NodeManager管理一个YARN集群中的每个节点。NodeManager提供针对集群中每个节点的服务，从监督对一个容器的终生管理到监视资源和跟踪节点健康。MRv1通过插槽管理Map和Reduce任务的执行，而NodeManager 管理抽象容器，这些容器代表着可供一个特定应用程序使用的针对每个节点的资源。YARN继续使用HDFS层。它的主要 NameNode用于元数据服务，而DataNode用于分散在一个集群中的复制存储服务。

1.单个节点上的资源管理；

2.处理来自ResourceManager上的命令；

3.处理来自ApplicationMaster上的命令。

ApplicationMaster（AM） ApplicationMaster管理一个在YARN内运行的应用程序的每个实例。ApplicationMaster 负责协调来自 ResourceManager 的资源，并通过 NodeManager 监视容器的执行和资源使用（CPU、内存等的资源分配）。请注意，尽管目前的资源更加传统（CPU 核心、内存），但未来会带来基于手头任务的新资源类型（比如图形处理单元或专用处理设备）。从 YARN 角度讲，ApplicationMaster 是用户代码，因此存在潜在的安全问题。YARN 假设 ApplicationMaster 存在错误或者甚至是恶意的，因此将它们当作无特权的代码对待。

负责数据的切分；

为应用程序申请资源并分配给内部的任务；

任务的监控与容错

Container

对任务运行环境进行抽象，封装CPU、内存等多维度的资源以及环境变量、启动命令等任务运行相关的信息。比如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container表示的。YARN会为每个任务分配一个Container，且该任务只能使用该Container中描述的资源。

2. 2. 4 三大发行版本

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。

Apache版本:最原始（最基础）的版本，对于入门学习最好。

Cloudera:在大型互联网企业中用的较多。

Hortonworks:文档较好。

1. Apache Hadoop

官网地址：http://hadoop.apache.org/releases.html

下载地址：https://archive.apache.org/dist/hadoop/common/

2. Cloudera Hadoop

官网地址：https://www.cloudera.com/downloads/cdh/5-10-0.html

下载地址：http://archive-primary.cloudera.com/cdh5/cdh/5/

（1）2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。

（2）2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH，

Cloudera Manager，Cloudera Support

（3）CDH是Cloudera的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强。

（4）Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。

（5）Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala 项目。

3. Hortonworks Hadoop

官网地址：https://hortonworks.com/products/data-center/hdp/

下载地址：Cloudera Enterprise Downloads

（1）2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

（2）公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。

（3）雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

（4）Hortonworks的主打产品是Hortonworks Data Platform（HDP），也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari，一款开源的安装和管理系统。

（5）HCatalog，一个元数据管理系统，HCatalog现已集成到Facebook开源的Hive中。Hortonworks 的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。

（6）Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础，每10个节点每年为12500美元。目前，HDP已被CDH收购。

Hadoop简介和体系架构

2．1 Hadoop简介

2．1．1 Hadoop由来

2．1．2 Hadoop发展历程

2．1．3 Hadoop生态系统

2．2 Hadoop的体系架构

2．2．1 分布式文件系统HDFS

2．2．2 分布式计算框架MapReduce

2．2．3 分布式资源调度系统YARN

2. 2. 4 三大发行版本

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Hadoop简介和体系架构

2．1 Hadoop简介

2．1．1 Hadoop由来

2．1．2 Hadoop发展历程

2．1．3 Hadoop生态系统

2．2 Hadoop的体系架构

2．2．1 分布式文件系统HDFS

2．2．2 分布式计算框架MapReduce

2．2．3 分布式资源调度系统YARN

2. 2. 4 三大发行版本

热门文章

最新文章

相关课程

相关电子书