MapReduce概述

简介: MapReduce概述

**1. 什么是MapReduce?**


 重温 Hadoop 四大组件:


- **HDFS**:分布式文件系统

- **MapReduce**:分布式运算编程框架

- **YARN**: Hadoop 的资源调度系统

- **Common**: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等


 MapReduce 是一个**分布式运算程序的编程框架**,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。


 MapReduce 核心功能是将**用户编写的业务逻辑代码**和**自带默认组件**整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。


 **2. 为什么需要 MapReduce?**


 (1)海量数据在单机上处理因为硬件资源限制,无法胜任;


 (2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和开发难度;


 (3)引入 MapReduce 框架后,开发人员可以将绝大部分工作集中在业务逻辑的开发上,而将分布式计算中的复杂性交由框架来处理。


 程序由单机版扩成分布式版时,会引入大量的复杂工作。为了提高开发效率,可以**将分布式程序中的公共功能封装成框架,让开发人员可以将精力集中于业务逻辑。**


 Hadoop 当中的 MapReduce 就是这样的一个分布式程序运算框架,它把大量分布式程序都会涉及到的内容都封装起来,让用户只用专注自己的业务逻辑代码的开发。

相关文章
|
分布式计算 Java Python
MapReduce简单概述
MapReduce简单概述
59 0
|
分布式计算 资源调度 Hadoop
Hadoop基础学习---5、MapReduce概述和WordCount实操(本地运行和集群运行)、Hadoop序列化
Hadoop基础学习---5、MapReduce概述和WordCount实操(本地运行和集群运行)、Hadoop序列化
|
分布式计算 资源调度 Java
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
Hadoop中的MapReduce概述、优缺点、核心思想、编程规范、进程、官方WordCount源码、提交到集群测试、常用数据序列化类型、WordCount案例实操
|
存储 SQL 运维
阿里云 E-MapReduce ClickHouse 操作指南 01期 — ClickHouse 概述
阿里云 E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理的系统解决方案。ClickHouse 作为开源的列式存储数据库,主要用于在线分析处理查询(OLAP),能够使用 SQL 查询实时生成分析数据报告。而阿里云 EMR ClickHouse 则提供了开源 OLAP 分析引擎 ClickHouse 的云上托管服务。
阿里云 E-MapReduce ClickHouse 操作指南 01期 — ClickHouse 概述
|
分布式计算 Hadoop 数据挖掘
MapReduce 概述| 学习笔记
快速学习 MapReduce 概述
111 0
|
分布式计算 Hadoop Java
|
分布式计算 Hadoop 大数据
一分钟了解阿里云产品:E-MapReduce概述
  阿里云有很多出色的产品,今天让我们来一起了解下E-MapReduce吧。   什么是E-MapReduce呢?   简单来说,E-MapReduce是构建于阿里云ECS弹性虚拟机之上,运行在阿里云平台上的一种大数据处理系统解决方案。它能够让用户将Apache Hadoop和Apache
7165 0
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
111 3