Map/Reduce
Map 和 Reduce 分别支持对应的 map/reduce 方法,setup 及 cleanup 方法。setup 方法在 map/reduce 方法之前调用,每个 Worker 调用且仅调用一次。
cleanup 方法在 map/reduce 方法之后调用,每个 Worker 调用且仅调用一次。
相关的使用示例请参见
示例程序。
排序
支持将Map 输出的 key record中的某几列作为排序(Sort)列,不支持您自定义的比较器(comparator)。您可以在排序列中选择某几列作为 Group列,不支持您自定义的 Group 比较器。Sort 列一般用来对您的数据进行排序,而 Group 列一般用来进行二次排序。
相关的使用示例请参见
二次排序源代码。
哈希
支持设置哈希(partition)列及用户自定义哈希函数(partitioner)。哈希列的使用优先级高于自定义哈希函数。
哈希函数用于将 Map 端的输出数据按照哈希逻辑分配到不同的 Reduce Worker 上。
归并
归并(Combiner)函数将 Shuffle 阶段相邻的 Record 进行归并。您可以根据不同的业务逻辑选择是否使用归并函数。
归并函数是 MapReduce 计算框架的一种优化,通常情况下,Combiner 的逻辑与 Reduce 相同。当 Map 输出数据后,框架会在 Map 端对相同 key 值的数据进行本地的归并操作。
相关的使用示例请参见
WordCount 代码示例。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。