开发者社区> 问答> 正文

mapreduce程序怎么优化?

mapreduce程序怎么优化?

展开
收起
cuicuicuic 2021-12-05 01:04:00 376 0
1 条回答
写回答
取消 提交回答
  • MapReduce程序的优化主要集中在两个方面:一个是运算性能方面的优化;另一个是IO操作方面的优化。

    具体体现在以下的几个环节之上:

    1. 任务调度

    a. 尽量选择空闲节点进行计算

    b. 尽量把任务分配给InputSplit所在机器

    1. 数据预处理与InputSplit的大小

    尽量处理少量的大数据;而不是大量的小数据。因此可以在处理前对数据进行一次预处理,将数据进行合并。

    如果自己懒得合并,可以参考使用CombineFileInputFormat函数。具体用法请查阅相关函数手册。

    1. Map和Reduce任务的数量

    Map任务槽中任务的数量需要参考Map的运行时间,而Reduce任务的数量则只需要参考Map槽中的任务数,一般是0.95或1.75倍。

    1. 使用Combine函数

    该函数用于合并本地的数据,可以大大减少网络消耗。具体请参考函数手册。

    1. 压缩

    可以对一些中间数据进行压缩处理,达到减少网络消耗的目的。

    1. 自定义comparator

    可以自定义数据类型实现更复杂的目的。

    2021-12-05 08:40:36
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
HareQL:快速HBase查询工具的发展过程 立即下载
HBase内核及能力 立即下载
使用Apache Beam和HBase进行高效数据处理 立即下载