MapReduce程序的优化主要集中在两个方面:一个是运算性能方面的优化;另一个是IO操作方面的优化。
具体体现在以下的几个环节之上:
a. 尽量选择空闲节点进行计算
b. 尽量把任务分配给InputSplit所在机器
尽量处理少量的大数据;而不是大量的小数据。因此可以在处理前对数据进行一次预处理,将数据进行合并。
如果自己懒得合并,可以参考使用CombineFileInputFormat函数。具体用法请查阅相关函数手册。
Map任务槽中任务的数量需要参考Map的运行时间,而Reduce任务的数量则只需要参考Map槽中的任务数,一般是0.95或1.75倍。
该函数用于合并本地的数据,可以大大减少网络消耗。具体请参考函数手册。
可以对一些中间数据进行压缩处理,达到减少网络消耗的目的。
可以自定义数据类型实现更复杂的目的。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。