黑马程序员-大数据入门到实战-MapReduce & YARN入门

简介: 黑马程序员-大数据入门到实战-MapReduce & YARN入门

1. 分布式计算概述

  1. 计算与分布式计算
  • 计算:对数据进行处理,使用统计分析等手段得到需要的结果
  • 分布式计算:多台服务器协同工作,共同完成一个计算任务
  1. 分布式计算的两种工作模式
  • 分散→汇总(MapReduce)
  • 中心调度→步骤执行(Spark、Flink)

2. MapReduce概述

  1. MapReduce
  • Hadoop中分布式计算组件
  • 分散→汇总模式
  1. 主要接口
  • map接口:“分散”功能
  • reduce接口:“汇总”功能
  1. 运行机制
  • 将执行的需求分解为多个 Map Task 和 Reduce Task
  • 将 Map Task 和 Reduce Task 分配到对应的服务器去执行

3. YARN概述

  1. YARN
  • Hadoop一个组件
  • 用于集群的资源调度
  1. MapReduce与YARN的关系
  • YARN用来调度资源给MapReduce分配和管理运行资源
  • MapReduce需要YARN才能执行

4. YARN架构

4.1 核心架构

  1. 核心架构角色
  • 主:ResourceManager
  • 从:NodeManager
  1. 功能
  • ResourceManager: 管理、统筹并分配整个集群的资源
  • NodeManager:管理、分配单个服务器的资源,即创建管理容器,由容器提供资源供程序使用

4.2 辅助架构

  • ProxyServer:保障web UI访问的安全性
  • JobHistoryServer:记录历史程序运行信息和日志

5. MapReduce & YARN的部署

5.1 集群规划

  • node1:ResourceManager、NodeManager、ProxyServer、JobHistoryServer
  • node2:NodeManager
  • node3:NodeManager

5.2 MapReduce配置文件

  1. 在 $HADOOP_HOME/etc/hadoop文件夹内,修改:
  • mapred-env.sh文件
  • mapred-site.xml文件

  • yarn-env.sh文件
  • yarn-site.xml文件

5.3 分发配置文件

5.4 集群启动命令介绍

  • 一键启动YARN集群:$HADOOP_HOME/sbin/start-yarn.sh
  • 一键停止YARN集群:
    $HADOOP_HOME/sbin/stop-yarn.sh

5.5 开启YARN集群

在node1服务器,以hadoop用户执行

  • start-yarn.sh
  • mapred --daemon start historyserver

查看YARN的运行

  • http://node1:8088

6. MapReduce & YARN初体验

6.1 集群启停命令

启动

start-yarn.sh

mapred --daemon start historyserver

停止

stop-yarn.sh

mapred --daemon stop historyserver

6.2 提交MapReduce任务到YARN执行


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
10月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
存储 SQL 分布式计算
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
别让你的数据“裸奔”!大数据时代的数据隐私保护实战指南
730 19
|
11月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
622 0
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
8月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
590 14
|
10月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
367 4
|
10月前
|
分布式计算 DataWorks 数据处理
在数据浪潮中前行:记录一次我与ODPS的实践、思考与展望
本文详细介绍了在 AI 时代背景下,如何利用阿里云 ODPS 平台(尤其是 MaxCompute)进行分布式多模态数据处理的实践过程。内容涵盖技术架构解析、完整操作流程、实际部署步骤以及未来发展方向,同时结合 CSDN 博文深入探讨了多模态数据处理的技术挑战与创新路径,为企业提供高效、低成本的大规模数据处理方案。
459 3
|
9月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
865 0
|
8月前
|
传感器 人工智能 监控
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
数据下田,庄稼不“瞎种”——聊聊大数据如何帮农业提效
271 14

热门文章

最新文章