Hadoop框架概论

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 集群:集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份的。其中重点的包括:Kafka、Spark、Flink、Hive、HBase、Zookeeper、Yarn、HDFS、MapReduce、集群模式主要用于生产环境部署,会使用N台主机组成一个Hadoop集群,这种部署模式下,主节点和从节点会分开部署在不同的机器上。开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性差。

分布式系统和集群
分布式概念:
分布式是指将多台服务器集中在一起,每台服务器都实现总体中的不同业务,做不同的事情。
集群:集群是指一组独立的计算机系统构成的一多处理器系统,它们之间通过网络实现进程间的通信,让若干台计算机联合起来工作(服务),可以是并行的,也可以是做备份的。
分布式与集群的区别:
分布式主要工作是分解任务,将职能拆解,多个人在一起做不同的事
集群:集群主要是将同一个业务,部署在多个服务器上,多个人在一起做同样的事。

Hadoop框架概论
Hadoop狭义解释
Hadoop是Apache旗下的一个用Java语言实现开源软件框架,是一个存储和计算大规模数据的软件平台。
Hadoop是Apache Lucene创始人 Doug Cutting创建的。起源一个Nutch项目。
Hadoop指Apache这个开源框架,核心组件有:
HDFS(分布式文件系统),解决海量数据存储
MAPREDUCE(分布式运算编程框架),解决海量数据计算。
YARN(作为调度和集群资源管理的框架),解决资源任务调度
广义解释
广义上来说,Hadoop通常是指一个更广泛的概念-Hadoop生态圈
image.png
其中重点的包括:Kafka、Spark、Flink、Hive、HBase、Zookeeper、Yarn、HDFS、MapReduce、
Hadoop框架版本
通用版本:
1、1.x版本,hadoop的第二代开源版本
2、2.x版本,架构产生重大变化,引入Yarn平台许多新特性,是主流版本
3、3.x版本,该版本是最新版本,但是还不太稳定
发行版:
开源社区版本和商业版本
开源社区版:指由Apache软件基金会维护的版本,是官方维护的版本体系,版本丰富,兼容性差。
商业版本:指由第三方商业公司在社区版Hadoop基础上进行了修改,整合以及各个服务组件兼容性测试而发行的版本,比较著名的有cloudera的CDH等。
Hadoop架构
Hadoop架构模块1.0 和2.0
image.png
1.0包含两部分MapReduce 负责计算,HDFS负责存储
2.0多一个Yarn负责分布式资源调度
Hadoop2.x架构内部模型
image.png
HDFS模块:
NameNode:集群中的主节点,主要用于管理集群中的各种数据,
SecondaryNameNode:主要能用于hadoop中元数据信息的辅助管理
DataNode:集群中的从节点,主要用于存储集群中的各种数据
数据计算核心模块:
ResourceManager:接手用户的计算请求任务,并负责集群的资源分配
NodeManager:负责执行主节点分配的任务
Hadoop2.x架构模型-MapReduce分布式计算模型
Map分,Reduce是合
image.png
Hadoop模块之间的关系(HDFS、MapReduce、Yarn)
MapReduce计算需要的数据和产生的结果需要HDFS来进行存储。
MapReduce的运行需要由Yarn集群来提供资源调度
Hadoop集群搭建
集群简介:
Hadoop集群具体来说包含两个集群:HDFS集群(消耗硬盘资源)和Yarn(消耗内存资源),两者逻辑上分离,但是物理上常在一起。
HDFS集群
NameNode(主节点)、DataNode(从节点)、SecondaryNameNode
Yarn集群
ResourceManager(主节点)、NodeManager(从节点)
集群搭建方式:
Standalone mode(单机模式)
单机模式,1个机器上运行HDFS的NameNode和DataNode、YARN的ResourceManager和Nodemanager,主要用于学习和调试
Cluster mode(集群模式)
集群模式主要用于生产环境部署,会使用N台主机组成一个Hadoop集群,这种部署模式下,主节点和从节点会分开部署在不同的机器上。
单机模式,windows系统运行内存至少要8G。
image.png
集群模式,windows内存至少16G
image.png
Hadoop集群使用
Hadoop启动和关闭-单机模式
1、启动虚拟机
2、连接虚拟机
3、集群一键启动和关闭
一键启动大数据环境
cd /export/onekye/
./start-all.sh
一键关闭大数据环境
cd /export/onekye/
./stop-all.sh
1、查看启动进程 jps,查看java相关的进程
2、查看HDFS页面
通过NameNode
Hadoop集群实践-单机模式
HDFS使用
从Linux本地上传一个文本文件到hdfs的/目录下
将/root目录下的initial-setup-ks.cfg文件上传到HDFS的根目录
cd /root
hadoop fs -put initial-setup-ks.cfg /
通过查看HDFS页面,看文件是否上传成功
MapReduce使用
在Hadoop安装包的share/hadoop/mapreduce下有官方自带的mapreduce程序,我们可以使用如下命令进行运行测试。示例hadoop-mapreduce-example-2.7.5.jar。
计算圆周率
hadoop jar /export/server/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar pi 2 10
2代表启动的线程。
Hadoop启动和关闭-集群模式
1、启动三台虚拟机
2、使用CRT链接主机
3、集群-一键启动和关闭
一键启动脚本
cd /export/onekey/
4、查看启动进程jps

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
分布式计算 Hadoop
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
Hadoop-27 ZooKeeper集群 集群配置启动 3台云服务器 myid集群 zoo.cfg多节点配置 分布式协调框架 Leader Follower Observer
67 1
|
8月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
360 2
|
3月前
|
存储 SQL 消息中间件
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
Hadoop-26 ZooKeeper集群 3台云服务器 基础概念简介与环境的配置使用 架构组成 分布式协调框架 Leader Follower Observer
60 0
|
5月前
|
资源调度 分布式计算 监控
【揭秘Hadoop YARN背后的奥秘!】从零开始,带你深入了解YARN资源管理框架的核心架构与实战应用!
【8月更文挑战第24天】Hadoop YARN(Yet Another Resource Negotiator)是Hadoop生态系统中的资源管理器,为Hadoop集群上的应用提供统一的资源管理和调度框架。YARN通过ResourceManager、NodeManager和ApplicationMaster三大核心组件实现高效集群资源利用及多框架支持。本文剖析YARN架构及组件工作原理,并通过示例代码展示如何运行简单的MapReduce任务,帮助读者深入了解YARN机制及其在大数据处理中的应用价值。
123 0
|
5月前
|
分布式计算 Hadoop 大数据
大数据处理框架在零售业的应用:Apache Hadoop与Apache Spark
【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持
95 0
|
7月前
|
XML 分布式计算 Hadoop
分布式系统详解--框架(Hadoop-单机版搭建)
分布式系统详解--框架(Hadoop-单机版搭建)
81 0
分布式系统详解--框架(Hadoop-单机版搭建)
|
8月前
|
分布式计算 Hadoop 大数据
分布式计算框架比较:Hadoop、Spark 与 Flink
【5月更文挑战第31天】Hadoop是大数据处理的开创性框架,专注于大规模批量数据处理,具有高扩展性和容错性。然而,它在实时任务上表现不足。以下是一个简单的Hadoop MapReduce的WordCount程序示例,展示如何统计文本中单词出现次数。
239 0
|
7月前
|
存储 分布式计算 监控
分布式系统详解--框架(Hadoop-HDFS的HA搭建及测试)
分布式系统详解--框架(Hadoop-HDFS的HA搭建及测试)
94 0
|
7月前
|
分布式计算 资源调度 网络协议
分布式系统详解--框架(Hadoop--RPC协议)
分布式系统详解--框架(Hadoop--RPC协议)
55 0
|
7月前
|
分布式计算 Hadoop Java
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
分布式系统详解--框架(Hadoop--JAVA操作HDFS文件)
62 0

相关实验场景

更多