切片和 MapTask 并行度决定机制| 学习笔记

简介: 快速学习切片和 MapTask 并行度决定机制

开发者学堂课程【Hadoop 分布式计算框架 MapReduce:切片和 MapTask 并行度决定机制】学习笔记,

与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/94/detail/1497


切片和 MapTask 并行度决定机制


内容介绍

1. 问题引出

2. MapTask 并行度决定机制

3. 切片和 MapTask 并行度决定机制图示分析

 

l 1.问题引出

MapTask 的并行度决定 Map阶段的任务处理并发度,进而影响到整个Job的处理速度。

思考:1G 的数据,启动8个 MapTask, 可以提高集群的并发处理能力。那么1K的数据,也启动8个 MapTask ,会提高集群性能吗?MapTask 并行任务是否越多越好呢?哪些因素影响了 MapTask 并行度?


l 2. MapTask 并行度决定机制

数据块:Block 是 HDFS 物理上把数据分成一块一块。

数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。


l 3.切片和 MapTask 并行度决定机制图示分析

1) 一个 Job 的 Map 阶段并行度由客户端在提交 Job 时的切片数决定

2)每一个 Split 切片分配一个 MapTask 并行实例处理

3)默认情况下,切片大小 =BlockSize

4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

图片3.png

目录
打赏
0
0
0
0
42
分享
相关文章
|
8月前
|
线程操纵术并行策略问题之调整并行流的并行度问题如何解决
线程操纵术并行策略问题之调整并行流的并行度问题如何解决
MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法
MapReduce计数器,Tash的运行机制,shuffle过程,压缩算法
77 0
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
174 0
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
MapTask 、ReduceTask 数量的决定因素
MapTask 、ReduceTask 数量的决定因素
450 0
MapTask、Shuffle、ReduceTask工作机制
MapTask、Shuffle、ReduceTask工作机制
80 0