黑马程序员-大数据入门到实战-MapReduce & YARN入门

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 黑马程序员-大数据入门到实战-MapReduce & YARN入门

1. 分布式计算概述

  1. 计算与分布式计算
  • 计算:对数据进行处理,使用统计分析等手段得到需要的结果
  • 分布式计算:多台服务器协同工作,共同完成一个计算任务
  1. 分布式计算的两种工作模式
  • 分散→汇总(MapReduce)
  • 中心调度→步骤执行(Spark、Flink)

2. MapReduce概述

  1. MapReduce
  • Hadoop中分布式计算组件
  • 分散→汇总模式
  1. 主要接口
  • map接口:“分散”功能
  • reduce接口:“汇总”功能
  1. 运行机制
  • 将执行的需求分解为多个 Map Task 和 Reduce Task
  • 将 Map Task 和 Reduce Task 分配到对应的服务器去执行

3. YARN概述

  1. YARN
  • Hadoop一个组件
  • 用于集群的资源调度
  1. MapReduce与YARN的关系
  • YARN用来调度资源给MapReduce分配和管理运行资源
  • MapReduce需要YARN才能执行

4. YARN架构

4.1 核心架构

  1. 核心架构角色
  • 主:ResourceManager
  • 从:NodeManager
  1. 功能
  • ResourceManager: 管理、统筹并分配整个集群的资源
  • NodeManager:管理、分配单个服务器的资源,即创建管理容器,由容器提供资源供程序使用

4.2 辅助架构

  • ProxyServer:保障web UI访问的安全性
  • JobHistoryServer:记录历史程序运行信息和日志

5. MapReduce & YARN的部署

5.1 集群规划

  • node1:ResourceManager、NodeManager、ProxyServer、JobHistoryServer
  • node2:NodeManager
  • node3:NodeManager

5.2 MapReduce配置文件

  1. 在 $HADOOP_HOME/etc/hadoop文件夹内,修改:
  • mapred-env.sh文件
  • mapred-site.xml文件

  • yarn-env.sh文件
  • yarn-site.xml文件

5.3 分发配置文件

5.4 集群启动命令介绍

  • 一键启动YARN集群:$HADOOP_HOME/sbin/start-yarn.sh
  • 一键停止YARN集群:
    $HADOOP_HOME/sbin/stop-yarn.sh

5.5 开启YARN集群

在node1服务器,以hadoop用户执行

  • start-yarn.sh
  • mapred --daemon start historyserver

查看YARN的运行

  • http://node1:8088

6. MapReduce & YARN初体验

6.1 集群启停命令

启动

start-yarn.sh

mapred --daemon start historyserver

停止

stop-yarn.sh

mapred --daemon stop historyserver

6.2 提交MapReduce任务到YARN执行


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
2月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
3月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
107 1
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
249 2
|
6月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
142 6
|
存储 分布式计算 资源调度
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(一)
263 5
|
资源调度 数据可视化 大数据
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
大数据-04-Hadoop集群 集群群起 NameNode/DataNode启动 3台公网云 ResourceManager Yarn HDFS 集群启动 UI可视化查看 YarnUI(二)
141 4
|
XML 分布式计算 资源调度
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
441 5
|
XML 资源调度 网络协议
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(二)
490 4
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
308 4
|
图形学 数据可视化 开发者
超实用Unity Shader Graph教程:从零开始打造令人惊叹的游戏视觉特效,让你的作品瞬间高大上,附带示例代码与详细步骤解析!
【8月更文挑战第31天】Unity Shader Graph 是 Unity 引擎中的强大工具,通过可视化编程帮助开发者轻松创建复杂且炫酷的视觉效果。本文将指导你使用 Shader Graph 实现三种效果:彩虹色渐变着色器、动态光效和水波纹效果。首先确保安装最新版 Unity 并启用 Shader Graph。创建新材质和着色器图谱后,利用节点库中的预定义节点,在编辑区连接节点定义着色器行为。
1237 1

热门文章

最新文章