黑马程序员-大数据入门到实战-MapReduce & YARN入门

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 黑马程序员-大数据入门到实战-MapReduce & YARN入门

1. 分布式计算概述

  1. 计算与分布式计算
  • 计算:对数据进行处理,使用统计分析等手段得到需要的结果
  • 分布式计算:多台服务器协同工作,共同完成一个计算任务
  1. 分布式计算的两种工作模式
  • 分散→汇总(MapReduce)
  • 中心调度→步骤执行(Spark、Flink)

2. MapReduce概述

  1. MapReduce
  • Hadoop中分布式计算组件
  • 分散→汇总模式
  1. 主要接口
  • map接口:“分散”功能
  • reduce接口:“汇总”功能
  1. 运行机制
  • 将执行的需求分解为多个 Map Task 和 Reduce Task
  • 将 Map Task 和 Reduce Task 分配到对应的服务器去执行

3. YARN概述

  1. YARN
  • Hadoop一个组件
  • 用于集群的资源调度
  1. MapReduce与YARN的关系
  • YARN用来调度资源给MapReduce分配和管理运行资源
  • MapReduce需要YARN才能执行

4. YARN架构

4.1 核心架构

  1. 核心架构角色
  • 主:ResourceManager
  • 从:NodeManager
  1. 功能
  • ResourceManager: 管理、统筹并分配整个集群的资源
  • NodeManager:管理、分配单个服务器的资源,即创建管理容器,由容器提供资源供程序使用

4.2 辅助架构

  • ProxyServer:保障web UI访问的安全性
  • JobHistoryServer:记录历史程序运行信息和日志

5. MapReduce & YARN的部署

5.1 集群规划

  • node1:ResourceManager、NodeManager、ProxyServer、JobHistoryServer
  • node2:NodeManager
  • node3:NodeManager

5.2 MapReduce配置文件

  1. 在 $HADOOP_HOME/etc/hadoop文件夹内,修改:
  • mapred-env.sh文件
  • mapred-site.xml文件

  • yarn-env.sh文件
  • yarn-site.xml文件

5.3 分发配置文件

5.4 集群启动命令介绍

  • 一键启动YARN集群:$HADOOP_HOME/sbin/start-yarn.sh
  • 一键停止YARN集群:
    $HADOOP_HOME/sbin/stop-yarn.sh

5.5 开启YARN集群

在node1服务器,以hadoop用户执行

  • start-yarn.sh
  • mapred --daemon start historyserver

查看YARN的运行

  • http://node1:8088

6. MapReduce & YARN初体验

6.1 集群启停命令

启动

start-yarn.sh

mapred --daemon start historyserver

停止

stop-yarn.sh

mapred --daemon stop historyserver

6.2 提交MapReduce任务到YARN执行


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
287 2
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
272 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
166 4
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
468 5
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
553 4
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
345 4
|
图形学 数据可视化 开发者
超实用Unity Shader Graph教程:从零开始打造令人惊叹的游戏视觉特效,让你的作品瞬间高大上,附带示例代码与详细步骤解析!
【8月更文挑战第31天】Unity Shader Graph 是 Unity 引擎中的强大工具,通过可视化编程帮助开发者轻松创建复杂且炫酷的视觉效果。本文将指导你使用 Shader Graph 实现三种效果:彩虹色渐变着色器、动态光效和水波纹效果。首先确保安装最新版 Unity 并启用 Shader Graph。创建新材质和着色器图谱后,利用节点库中的预定义节点,在编辑区连接节点定义着色器行为。
1437 1
|
资源调度 分布式计算 大数据
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
大数据-111 Flink 安装部署 YARN部署模式 FlinkYARN模式申请资源、提交任务
434 0
|
分布式计算 大数据 Hadoop
揭秘MapReduce背后的魔法:从基础类型到高级格式,带你深入理解这一大数据处理利器的奥秘与实战技巧,让你从此不再是编程门外汉!
【8月更文挑战第17天】MapReduce作为分布式计算模型,是大数据处理的基石。它通过Map和Reduce函数处理大规模数据集,简化编程模型,使开发者聚焦业务逻辑。MapReduce分单阶段和多阶段,支持多种输入输出格式如`TextInputFormat`和`SequenceFileInputFormat`。例如,简单的单词计数程序利用`TextInputFormat`读取文本行并计数;而`SequenceFileInputFormat`适用于高效处理二进制序列文件。合理选择类型和格式可有效解决大数据问题。
245 1
|
分布式计算 资源调度 Hadoop
在YARN集群上运行部署MapReduce分布式计算框架
主要介绍了如何在YARN集群上配置和运行MapReduce分布式计算框架,包括准备数据、运行MapReduce任务、查看任务日志,并启动HistoryServer服务以便于日志查看。
230 0

热门文章

最新文章