- 1.MapTask 的数量是由切片的个数决定,切片的个数由(1)输入文件的数量、大小 (2)切片规则决定。(参数的大小:minsize 、maxsize、blocksize)
切片大小默认为 block=128M,切片时不针对数据集整体,而是针对每一个文件单独进行切分,计算 spiltsize 大小的公式:
splitSize = Math.max(minSize, Math.min(maxSize, blockSize));。
- 2.ReduceTask 的数量可以自定义配置,但要考虑业务需求、并且根据集群性能来定,默认数量为 1,conf.setNumReduceTasks (int num)。


