MapReduce 编程模型概述-阿里云开发者社区

MapReduce 编程模型概述

2016-04-21 2545

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

MapReduce 编程模型给出了其分布式编程方法，共分 5 个步骤：
1）迭代（iteration）。遍历输入数据，并将之解析成 key/value 对。
2）将输入 key/value 对映射（map）成另外一些 key/value 对。
3）依据 key 对中间数据进行分组（grouping）。
4）以组为单位对数据进行归约（reduce）。
5）迭代。将最终产生的 key/value 对保存到输出文件中。
MapReduce 将计算过程分解成以上 5 个步骤带来的最大好处是组件化与并行化。为了实现 MapReduce 编程模型， Hadoop 设计了一系列对外编程接口。用户可通过实现这些接口完成应用程序的开发。

MapReduce 编程接口体系结构

MapReduce 编程模型对外提供的编程接口体系结构如图所示，整个编程模型位于应用程序层和 MapReduce 执行器之间，可以分为两层。第一层是最基本的 Java API，主要有 5个可编程组件，分别是 InputFormat、Mapper、Partitioner、Reducer 和 OutputFormat 。Hadoop 自带了很多直接可用的 InputFormat、Partitioner 和 OutputFormat，大部分情况下，用户只需编写 Mapper 和 Reducer 即可。第二层是工具层，位于基本 Java API 之上，主要是为了方便用户编写复杂的 MapReduce 程序和利用其他编程语言增加 MapReduce 计算平台的兼容性而提出来的。在该层中，主要提供了 4 个编程工具包:

JobControl：方便用户编写有依赖关系的作业，这些作业往往构成一个有向图，所以通常称为 DAG（ Directed Acyclic Graph）作业。

ChainReducer：方便用户编写链式作业，即在 Map 或者 Reduce 阶段存在多个 Mapper，形式如下：[MAPPER+ REDUCER MAPPER*]

Hadoop Streaming：方便用户采用非 Java 语言编写作业，允许用户指定可执行文件或者脚本作为 Mapper/Reducer。

Hadoop Pipes：专门为 C/C++ 程序员编写 MapReduce 程序提供的工具包。

新旧 MapReduce API 比较

从 0.20.0 版本开始， Hadoop 同时提供了新旧两套 MapReduce API。新 API 在旧 API基础上进行了封装，使得其在扩展性和易用性方面更好。新旧版 MapReduce API 的主要区别如下。

（1）存放位置
旧版 API 放在 org.apache.hadoop.mapred 包中，而新版 API 则放在 org.apache.hadoop.mapreduce 包及其子包中。

（2）接口变为抽象类
接口通常作为一种严格的“协议约束”。它只有方法声明而没有方法实现，且要求所有实现类（不包括抽象类）必须实现接口中的每一个方法。接口的最大优点是允许一个类实现多个接口，进而实现类似 C++ 中的“多重继承”。抽象类则是一种较宽松的“约束协议”，它可为某些方法提供默认实现。而继承类则可选择是否重新实现这些方法。正是因为这一点，抽象类在类衍化方面更有优势，也就是说，抽象类具有良好的向后兼容性，当需要为抽象类添加新的方法时，只要新添加的方法提供了默认实现，用户之前的代码就不必修改了。
考虑到抽象类在API衍化方面的优势，新 API 将 InputFormat、 OutputFormat、Mapper、 Reducer 和 Partitioner 由接口变为抽象类。

（3）上下文封装
新版 API 将变量和函数封装成各种上下文（Context）类，使得 API 具有更好的易用性和扩展性。首先，函数参数列表经封装后变短，使得函数更容易使用；其次，当需要修改或添加某些变量或函数时，只需修改封装后的上下文类即可，用户代码无须修改，这样保证了向后兼容性，具有良好的扩展性。图展示了新版 API 中树形的 Context 类继承关系。这些 Context 各自封装了一种实体的基本信息及对应的操作（setter 和 getter 函数），如 JobContext、TaskAttemptContext 分别封装了 Job 和 Task 的基本信息，TaskInputOutputContext 封装了Task 的各种输入输出操作，MapContext 和 ReduceContext 分别封装了 Mapper 和 Reducer 对外的公共接口。

除了以上三点不同之外，新旧 API 在很多其他细节方面也存在小的差别，具体将在接下来的内容中讲解。
由于新版和旧版 API 在类层次结构、编程接口名称及对应的参数列表等方面存在较大差别，所以两种 API 不能兼容。但考虑到应用程序的向后兼容性，短时间内不会将旧 API
从 MapReduce 中去掉。即使在完全采用新 API 的 0.21.0/0.22.X 版本系列中，也仅仅将旧API 标注为过期（deprecated），用户仍然可以使用。

MapReduce 编程模型概述

MapReduce 编程接口体系结构

新旧 MapReduce API 比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

MapReduce 编程模型概述

MapReduce 编程接口体系结构

新旧 MapReduce API 比较

热门文章

最新文章

相关课程

相关电子书

相关实验场景