开发者社区大数据文章正文

map-reduce任务的执行流程

2015-03-26 683

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

(1).客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)
(2).JobClient通过RPC和JobTracker进行通信，返回一个存放jar包的地址（HDFS）和jobId
(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
(4).开始提交任务(任务的描述信息，不是jar, 包括jobid，jar存放的位置，配置信息等等)
(5).JobTracker进行初始化任务
(6).读取HDFS上的要处理的文件，开始计算输入分片，每一个分片对应一个MapperTask
(7).TaskTracker通过心跳机制领取任务（任务的描述信息）
(8).下载所需的jar，配置文件等
(9).TaskTracker启动一个java child子进程，用来执行具体的任务（MapperTask或ReducerTask

）
(10).将结果写入到HDFS当中

文章标签：

Java

分布式计算

Hadoop

关键词：

Map任务

Map流程

xiaohei.info

旭东的博客

分布式计算 Hadoop 数据处理

Hadoop 少量map/reduce任务执行慢问题

最近在做报表统计，跑hadoop任务。之前也跑过map/reduce但是数据量不大，遇到某些map/reduce执行时间特别长的问题。执行时间长有几种可能性： 1. 单个map/reduce任务处理的任务大。

旭东的博客

1868 0 0

余二五

分布式计算 Hadoop

Hadoop HDFS中的数据块和Map任务的分片

余二五

1298 0 0

桃子红了呐

存储 SQL 分布式计算

揭秘FaceBook Puma演变及发展——FaceBook公司的实时数据分析平台是建立在Hadoop 和Hive的基础之上，这个根能立稳吗？hive又是sql的Map reduce任务拆分，底层还是依赖hbase和hdfs存储

桃子红了呐

1616 0 0

技术小哥哥

Web App开发分布式计算大数据

Hadoop MapReduce概念学习系列之map并发任务数和reduce并发任务数的原理和代码实现（十八）

技术小哥哥

2069 0 0

知与谁同

存储缓存分布式计算

Spark Shuffle过程分析：Map阶段处理流程

知与谁同

1452 0 0

祝威廉

分布式计算 Spark

Spark sc.textFile(...).map(...).count() 执行完整流程

本文介绍下Spark 到底是如何运行sc.TextFile(...).map(....).count() 这种代码的，从driver端到executor端。

祝威廉

4201 0 0

泰山不老生

编解码分布式计算算法

记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决

泰山不老生

1232 0 0

泰山不老生

分布式计算 Hadoop

Hadoop旧mapreduce的map任务切分原理

泰山不老生

1088 0 0

泰山不老生

分布式计算 Hadoop Java

Hadoop2.6.0的FileInputFormat的任务切分原理分析（即如何控制FileInputFormat的map任务数量）

泰山不老生

1152 0 0

cnbird

分布式计算 Java Hbase

远程提交Map/Reduce任务

1. 将开发好MR代码打包成jar。添加到distributed cache中。 Xml代码 bin/hadoop fs -copyFromLocal /root/stat-analysis-mapred-1.

cnbird

784 0 0

map-reduce任务的执行流程

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

map-reduce任务的执行流程

热门文章

最新文章

相关课程

相关电子书