【赵渝强老师】Hadoop生态圈组件

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 本文介绍了Hadoop生态圈的主要组件及其关系,包括HDFS、HBase、MapReduce与Yarn、Hive与Pig、Sqoop与Flume、ZooKeeper和HUE。每个组件的功能和作用都进行了简要说明,帮助读者更好地理解Hadoop生态系统。文中还附有图表和视频讲解,以便更直观地展示这些组件的交互方式。

b005.png


下图为大家展示了Hadoop生态圈体系中的主要组件以及它们彼此之间的关系。



视频讲解如下:


这里先简单说明每一个组件的作用功能。


  • HDFS


它的全称是Hadoop Distributed File System,它是Hadoop分布式文件系统,用于解决大数据的存储问题。HDFS源自于Google的GFS论文,可用于运行在低成本的通用硬件上,是一个具有容错的文件系统。


  • HBase


基于HDFS之上的分布式列式存储NoSQL数据库,起源于Google的BigTable思想。由于HBase的底层是HDFS,因此HBase中创建的表和表中数据最终都是存储在HDFS上。HBase的核心是列式存储,它适合执行查询操作。


  • MapReduce与Yarn

MapReduce是一种分布式计算模型,用以进行大数据量的计算,它是一种离线计算处理模型。MapReduce通过Map和Reduce两个阶段的划分,非常适合在大量计算机组成的分布式并行环境里进行数据处理。通过MapReduce既可以处理HDFS中的数据,也可以处理HBase中的数据。


Yarn(Yet Another Resource Negotiator,另一种资源协调者)是 Hadoop集群中的资源管理器。从Hadoop 2.x开始,MapReduce默认都是运行在Yarn之上。

在Hadoop的安装包中已经集成了HDFS与Yarn。因此Hadoop安装成功后,可以直接执行MapReduce任务处理HDFS的数据。


  • 数据分析引擎Hive与Pig

Hive是基于HDFS之上的数据仓库,支持标准的SQL语句。默认情况下,Hive的执行引擎是MapReduce。Hive可以把一条标准的SQL转换成是MapReduce任务运行在Yarn之上。


Pig也是Hadoop中的数据分析引擎,支持PigLatin语句。默认情况下,Pig的执行引擎也是MapReduce。Pig允许处理结构化数据和半结构化数据。


Hive和Pig的执行引擎也可以是Spark,即:Hive on Spark和Pig on Spark。


  • 数据采集引擎Sqoop和Flume

Sqoop的全称是SQL to Hadoop,它是一个数据交换工具,主要针对的关系型数据库,例如:Oracle、MySQL等。Sqoop数据交换的本质上是Mapreduce程序,它充分利用了MapReduce的并行化和容错性,从而提高了数据交换的性能。


Flume是一个分布式的、可靠的、可用的日志收集服务组件。它可以高效地收集、聚合、移动大量的日志日志数据。

Flume进行日志采集的过程其本质并不是MapReduce任务。


  • 分布式协调服务ZooKeeper

ZooKeeper可以当成是一个“数据库”来使用,主要解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。同时在大数据架构中,利用ZooKeeper可以解决大数据主从架构的单点故障问题实现大数据的高可用性。


  • 集成管理工具HUE

HUE是基于Web形式发布的集成管理工具,可以与大数据相关组件进行集成。通过HUE可以管理Hadoop中的相关组件,也可以管理Spark中的相关组件。



相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
存储 分布式计算 资源调度
Hadoop 三大组件及作用【重要】
Hadoop 三大组件及作用【重要】
349 0
|
6月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
220 0
|
10天前
|
分布式计算 资源调度 Hadoop
【赵渝强老师】基于ZooKeeper实现Hadoop HA
本文介绍了如何在4个节点(bigdata112、bigdata113、bigdata114和bigdata115)上部署HDFS高可用(HA)架构,并同时部署Yarn的HA。详细步骤包括环境变量设置、配置文件修改、ZooKeeper集群启动、JournalNode启动、HDFS格式化、ZooKeeper格式化以及启动Hadoop集群等。最后通过jps命令检查各节点上的后台进程,确保部署成功。
|
3月前
|
存储 分布式计算 Hadoop
Hadoop 的两个主要组件是什么?
【8月更文挑战第12天】
462 4
Hadoop 的两个主要组件是什么?
|
3月前
|
存储 分布式计算 资源调度
什么是Hadoop及其组件?
【8月更文挑战第31天】
137 0
|
5月前
|
存储 分布式计算 大数据
Hadoop 生态圈中的组件如何协同工作来实现大数据处理的全流程
Hadoop 生态圈中的组件如何协同工作来实现大数据处理的全流程
|
5月前
|
SQL 消息中间件 分布式计算
Hadoop生态圈组件及其作用
Hadoop生态圈组件及其作用
|
6月前
|
分布式计算 Hadoop 容器
Hadoop组件版本不兼容
【5月更文挑战第7天】Hadoop组件版本不兼容
64 3
|
6月前
|
SQL 存储 分布式计算
Hadoop生态各个组件的关系
Hadoop生态各个组件的关系
64 0
|
6月前
|
存储 分布式计算 监控
什么是Hadoop?请简要解释其架构和组件。
什么是Hadoop?请简要解释其架构和组件。
71 0