《MapReduce 2.0源码分析与编程实战》一1.6 本章小结

简介:

本节书摘来异步社区《MapReduce 2.0源码分析与编程实战》一书中的第1章,第1.6节,作者: 王晓华 责编: 陈冀康,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.6 本章小结

大象也会跳舞,我们曾幻想臃肿的数据不再成为我们的负担。Hadoop带来的一切使得我们梦想成真。大数据已经成为我们所拥有的财富,成为一座未经开采的金矿。我们还有什么理由不去使用和掌握它呢?

相关文章
|
缓存 分布式计算
MapReduce执行机制之Map和Reduce源码分析
MapReduce执行机制之Map和Reduce源码分析
389 0
MapReduce执行机制之Map和Reduce源码分析
|
存储 分布式计算 Hadoop
Hadoop之MapReduce04【客户端源码分析】
客户端源码分析 启动的客户端代码 public static void main(String[] args) throws Exception { // 创建配置文件对象 Configuration conf = new Configuration(true); // 获取Job对象 Job job = Job.getInstance(conf); // 设置相关类 job.setJarByClass(WcTest.class);
Hadoop之MapReduce04【客户端源码分析】
|
分布式计算 调度
MapReduce源码分析之作业Job状态机解析(一)简介与正常流程浅析
        作业Job状态机维护了MapReduce作业的整个生命周期,即从提交到运行结束的整个过程。Job状态机被封装在JobImpl中,其主要包括14种状态和19种导致状态发生的事件。         作业Job的全部状态维护在类JobStateInternal中,如下所示: publ...
1107 0
|
分布式计算 Java
MapReduce中map并行度优化及源码分析
mapTask并行度的决定机制   一个job的map阶段并行度由客户端在提交job时决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理。
1459 0
|
资源调度 分布式计算 存储
Yarn源码分析之MRAppMaster上MapReduce作业处理总流程(一)
        我们知道,如果想要在Yarn上运行MapReduce作业,仅需实现一个ApplicationMaster组件即可,而MRAppMaster正是MapReduce在Yarn上ApplicationMaster的实现,由其控制MR作业在Yarn上的执行。
1226 0
|
资源调度 分布式计算 调度
Yarn源码分析之MRAppMaster上MapReduce作业处理总流程(二)
        本文继《Yarn源码分析之MRAppMaster上MapReduce作业处理总流程(一)》,接着讲述MapReduce作业在MRAppMaster上处理总流程,继上篇讲到作业初始化之后的作业启动,关于作业初始化主体流程的详细介绍,请参见《Yarn源码分析之MRAppMaster上MapReduce作业初始化解析》一文。
924 0
|
缓存 分布式计算 资源调度
MapReduce源码分析之新API作业提交(二):连接集群
         MapReduce作业提交时连接集群是通过Job的connect()方法实现的,它实际上是构造集群Cluster实例cluster,代码如下: private synchronized void connect() throws IOExcep...
1087 0
|
存储 缓存 分布式计算
MapReduce源码分析之JobSubmitter(一)
        JobSubmitter,顾名思义,它是MapReduce中作业提交者,而实际上JobSubmitter除了构造方法外,对外提供的唯一一个非private成员变量或方法就是submitJobInternal()方法,它是提交Job的内部方法,实现了提交Job的所有业务逻辑。
1414 0
|
存储 分布式计算
MapReduce源码分析之JobSplitWriter
        JobSplitWriter被作业客户端用于写分片相关文件,包括分片数据文件job.split和分片元数据信息文件job.splitmetainfo。它有两个静态成员变量,如下: // 分片版本,当前默认为1 private static final int splitVersion = JobSplit.
874 0
|
存储 分布式计算
MapReduce源码分析之InputFormat
        InputFormat描述了一个Map-Reduce作业中的输入规范。Map-Reduce框架依靠作业的InputFormat实现以下内容:         1、校验作业的输入规范;         2、分割输入文件(可能为多个),生成逻辑输入分片InputSplit(往往为多个),每个输入分片InputSplit接着被分配给单独的Mapper;         3、提供记录读取器RecordReader的实现,RecordReader被用于从逻辑输入分片InputSplit收集输入记录,这些输入记录会被交由Mapper处理。
1188 0

热门文章

最新文章