开发者社区> 问答> 正文

MaxCompute用户指南:MapReduce:功能介绍:基本概念



Map/Reduce


Map 和 Reduce 分别支持对应的 map/reduce 方法,setup 及 cleanup 方法。setup 方法在 map/reduce 方法之前调用,每个 Worker 调用且仅调用一次。
cleanup 方法在 map/reduce 方法之后调用,每个 Worker 调用且仅调用一次。
相关的使用示例请参见 示例程序

排序


支持将Map 输出的 key record中的某几列作为排序(Sort)列,不支持您自定义的比较器(comparator)。您可以在排序列中选择某几列作为 Group列,不支持您自定义的 Group 比较器。Sort 列一般用来对您的数据进行排序,而 Group 列一般用来进行二次排序。
相关的使用示例请参见 二次排序源代码

哈希


支持设置哈希(partition)列及用户自定义哈希函数(partitioner)。哈希列的使用优先级高于自定义哈希函数。
哈希函数用于将 Map 端的输出数据按照哈希逻辑分配到不同的 Reduce Worker 上。

归并


归并(Combiner)函数将 Shuffle 阶段相邻的 Record 进行归并。您可以根据不同的业务逻辑选择是否使用归并函数。
归并函数是 MapReduce 计算框架的一种优化,通常情况下,Combiner 的逻辑与 Reduce 相同。当 Map 输出数据后,框架会在 Map 端对相同 key 值的数据进行本地的归并操作。
相关的使用示例请参见 WordCount 代码示例

展开
收起
行者武松 2017-10-23 17:39:50 2124 0
0 条回答
写回答
取消 提交回答
问答排行榜
最热
最新

相关电子书

更多
Data+AI时代大数据平台应该如何建设 立即下载
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载