开发者社区> 问答> 正文

MapReduce中是如何定义并行度的?

MapReduce中是如何定义并行度的?

展开
收起
xin在这 2021-12-06 22:13:32 326 0
1 条回答
写回答
取消 提交回答
  • 一个job的map阶段并行度由客户端提交的job决定。 客户端对map阶段并行度的规划逻辑为: 将待处理数据执行逻辑切片。按照一个特定切片的大小,将待处理的数据划分成逻辑上的多个split,然后每一个split分配一个maptask实例,并进行处理。

    reducetask 并行度同样影响整个 job 的执行并发度和执行效率,与maptask的并发数由切片数决定不同,Reducetask 数量的决定是可以直接手动设置: job.setNumReduceTasks(4);

    2021-12-06 22:13:45
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
HBase2.0重新定义小对象实时存取 立即下载
Hadoop存储与计算分离实践 立即下载