开发者社区大数据文章正文

《MapReduce 2.0源码分析与编程实战》一1.6 本章小结

2017-05-02 1647

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章，第1.6节，作者：王晓华责编：陈冀康，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.6 本章小结

大象也会跳舞，我们曾幻想臃肿的数据不再成为我们的负担。Hadoop带来的一切使得我们梦想成真。大数据已经成为我们所拥有的财富，成为一座未经开采的金矿。我们还有什么理由不去使用和掌握它呢？

文章标签：

大数据

分布式计算

Hadoop

关键词：

mapreduce源码分析

开源大数据平台 E-MapReduce源码分析

开源大数据平台 E-MapReduce源码分析编程实战

异步社区

遇见的昨天

缓存分布式计算

MapReduce执行机制之Map和Reduce源码分析

遇见的昨天

389 0 0

游客a74jvhcp7vclg

存储分布式计算 Hadoop

Hadoop之MapReduce04【客户端源码分析】

客户端源码分析启动的客户端代码 public static void main(String[] args) throws Exception { // 创建配置文件对象 Configuration conf = new Configuration(true); // 获取Job对象 Job job = Job.getInstance(conf); // 设置相关类 job.setJarByClass(WcTest.class);

游客a74jvhcp7vclg

154 0 0

柏辰爸爸

分布式计算调度

MapReduce源码分析之作业Job状态机解析（一）简介与正常流程浅析

作业Job状态机维护了MapReduce作业的整个生命周期，即从提交到运行结束的整个过程。Job状态机被封装在JobImpl中，其主要包括14种状态和19种导致状态发生的事件。作业Job的全部状态维护在类JobStateInternal中，如下所示： publ...

柏辰爸爸

1107 0 1

刘洋intsmaze

分布式计算 Java

MapReduce中map并行度优化及源码分析

mapTask并行度的决定机制　　一个job的map阶段并行度由客户端在提交job时决定，而客户端对map阶段并行度的规划的基本逻辑为：将待处理数据执行逻辑切片（即按照一个特定切片大小，将待处理数据划分成逻辑上的多个split），然后每一个split分配一个mapTask并行实例处理。

刘洋intsmaze

1459 0 0

柏辰爸爸

资源调度分布式计算存储

Yarn源码分析之MRAppMaster上MapReduce作业处理总流程（一）

我们知道，如果想要在Yarn上运行MapReduce作业，仅需实现一个ApplicationMaster组件即可，而MRAppMaster正是MapReduce在Yarn上ApplicationMaster的实现，由其控制MR作业在Yarn上的执行。

柏辰爸爸

1226 0 0

柏辰爸爸

资源调度分布式计算调度

Yarn源码分析之MRAppMaster上MapReduce作业处理总流程（二）

本文继《Yarn源码分析之MRAppMaster上MapReduce作业处理总流程（一）》，接着讲述MapReduce作业在MRAppMaster上处理总流程，继上篇讲到作业初始化之后的作业启动，关于作业初始化主体流程的详细介绍，请参见《Yarn源码分析之MRAppMaster上MapReduce作业初始化解析》一文。

柏辰爸爸

924 0 0

柏辰爸爸

缓存分布式计算资源调度

MapReduce源码分析之新API作业提交（二）：连接集群

MapReduce作业提交时连接集群是通过Job的connect()方法实现的，它实际上是构造集群Cluster实例cluster，代码如下： private synchronized void connect() throws IOExcep...

柏辰爸爸

1087 0 0

柏辰爸爸

存储缓存分布式计算

MapReduce源码分析之JobSubmitter（一）

JobSubmitter，顾名思义，它是MapReduce中作业提交者，而实际上JobSubmitter除了构造方法外，对外提供的唯一一个非private成员变量或方法就是submitJobInternal()方法，它是提交Job的内部方法，实现了提交Job的所有业务逻辑。

柏辰爸爸

1414 0 0

柏辰爸爸

存储分布式计算

MapReduce源码分析之JobSplitWriter

JobSplitWriter被作业客户端用于写分片相关文件，包括分片数据文件job.split和分片元数据信息文件job.splitmetainfo。它有两个静态成员变量，如下： // 分片版本，当前默认为1 private static final int splitVersion = JobSplit.

柏辰爸爸

874 0 0

柏辰爸爸

存储分布式计算

MapReduce源码分析之InputFormat

InputFormat描述了一个Map-Reduce作业中的输入规范。Map-Reduce框架依靠作业的InputFormat实现以下内容： 1、校验作业的输入规范； 2、分割输入文件（可能为多个），生成逻辑输入分片InputSplit（往往为多个），每个输入分片InputSplit接着被分配给单独的Mapper； 3、提供记录读取器RecordReader的实现，RecordReader被用于从逻辑输入分片InputSplit收集输入记录，这些输入记录会被交由Mapper处理。

柏辰爸爸

1188 0 0

《MapReduce 2.0源码分析与编程实战》一1.6 本章小结

1.6 本章小结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《MapReduce 2.0源码分析与编程实战》一1.6 本章小结

1.6 本章小结

热门文章

最新文章

相关课程

相关电子书