开发者社区> 问答> 正文

请简述 mapreduce 中,combiner,partition 作用?

请简述 mapreduce 中,combiner,partition 作用?

展开
收起
愚笨如你 2020-02-14 20:58:40 2120 0
1 条回答
写回答
取消 提交回答
  • combiner是reduce的实现,在map端运行计算任务,减少map端的输出数据。

    作用就是优化。

    但是combiner的使用场景是mapreduce的map输出结果和reduce输入输出一样。

    partition的默认实现是hashpartition,是map端将数据按照reduce个数取余,进行分区,不同的reduce来copy自己的数据。

    partition的作用是将数据分到不同的reduce进行计算,加快计算效果。

    1、combiner最基本是实现本地key的聚合,对map输出的key排序,value进行迭代。如下所示:

      map: (K1, V1) → list(K2, V2)

      combine: (K2, list(V2)) → list(K2, V2)

      reduce: (K2, list(V2)) → list(K3, V3)

      2、combiner还具有类似本地的reduce功能.

      例如hadoop自带的wordcount的例子和找出value的最大值的程序,combiner和reduce完全一致。如下所示:

      map: (K1, V1) → list(K2, V2)

      combine: (K2, list(V2)) → list(K3, V3)

      reduce: (K3, list(V3)) → list(K4, V4)

      3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用combiner,先完成的map会在本地聚合,提升速度。

      4、对于hadoop自带的wordcount的例子,value就是一个叠加的数字,所以map一结束就可以进行reduce的value叠加,而不必要等到所有的map结束再去进行reduce的value叠加。

      combiner使用的合适,可以在满足业务的情况下提升job的速度,如果不合适,则将导致输出的结果不正确。

    2020-02-14 20:59:15
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
# Apache Spark系列技术直播# 第五讲【 Spark RDD编程入门 】 立即下载
SparkSQL实践与优化 立即下载