map-reduce任务的执行流程

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/44657537 (1).
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq1010885678/article/details/44657537
(1).客户端提交一个mr的jar包给JobClient(提交方式:hadoop jar ...)
(2).JobClient通过RPC和JobTracker进行通信,返回一个存放jar包的地址(HDFS)和jobId
(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
(4).开始提交任务(任务的描述信息,不是jar, 包括jobid,jar存放的位置,配置信息等等)
(5).JobTracker进行初始化任务
(6).读取HDFS上的要处理的文件,开始计算输入分片,每一个分片对应一个MapperTask
(7).TaskTracker通过心跳机制领取任务(任务的描述信息)
(8).下载所需的jar,配置文件等
(9).TaskTracker启动一个java child子进程,用来执行具体的任务(MapperTask或ReducerTask



(10).将结果写入到HDFS当中
相关文章
|
分布式计算 Hadoop 数据处理
Hadoop 少量map/reduce任务执行慢问题
最近在做报表统计,跑hadoop任务。 之前也跑过map/reduce但是数据量不大,遇到某些map/reduce执行时间特别长的问题。 执行时间长有几种可能性: 1. 单个map/reduce任务处理的任务大。
1858 0
|
分布式计算 Spark
Spark sc.textFile(...).map(...).count() 执行完整流程
本文介绍下Spark 到底是如何运行sc.TextFile(...).map(....).count() 这种代码的,从driver端到executor端。
4195 0
|
编解码 分布式计算 算法
记Hadoop2.5.0线上mapreduce任务执行map任务划分的一次问题解决
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51397729 前言 近日在线上发现有些mapreduce作业的执行时间很长,我们需要解决这个问题。
1228 0
|
分布式计算 Hadoop
Hadoop旧mapreduce的map任务切分原理
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51395043 前言 最近在工作过程中接触一些Hive数据仓库中的表,这些表实际是从关系型数据库通过Sqoop抽到Hive的。
1081 0
|
分布式计算 Hadoop Java
Hadoop2.6.0的FileInputFormat的任务切分原理分析(即如何控制FileInputFormat的map任务数量)
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/beliefer/article/details/51122009 前言 首先确保已经搭建好Hadoop集群环境,可以参考《Linux下Hadoop集群环境的搭建》一文的内容。
1146 0
|
分布式计算 Java Hbase
远程提交Map/Reduce任务
1. 将开发好MR代码打包成jar。添加到distributed cache中。   Xml代码   bin/hadoop fs -copyFromLocal /root/stat-analysis-mapred-1.
780 0