①抽样和范围分区 可以通过对原始数据进行抽样得到的结果集来预设分区边界值。 ②自定义分区 基于输出键的背景知识进行自定义分区。例如,如果 map 输出键的单词来源于一本书。且其中某几个专业词汇较多。那么就可以自定义分区将这这些专业词汇发送给固定的一部分reduce 实例。而将其他的都发送给剩余的 reduce 实例。 ③Combine 使用 Combine 可以大量地减小数据倾斜。在可能的情况下,combine 的目的就是提前聚合并精简数据。 ④采用 Map Join,尽量避免 Reduce Join。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。