开发者社区> 问答> 正文

二次排序功能,MR相关配置是什么?

二次排序功能,MR相关配置是什么?

展开
收起
芯在这 2021-12-08 17:15:16 204 0
1 条回答
写回答
取消 提交回答
  • 通常情况下,GroupingColumns包含在KeySortColumns中,KeySortColumns和PartitionColumns要包含在Key schema中。

    在Map端,Mapper输出的Record会根据设置的PartitionColumns计算哈希值,决定分配到哪个Reducer,会根据KeySortColumns对Record进行排序。

    在Reduce端,输入Records在按照KeySortColumns排序好后,会根据GroupingColumns指定的列对输入的Records进行分组,即会顺序遍历输入的Records,把GroupingColumns所指定列相同的Records作为一次reduce函数调用的输入。

    2021-12-08 17:15:30
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Apache Flink 流式应用中状态的数据结构定义升级 立即下载
4个迭代,从批量交...1573957773.pdf 立即下载
李劲松|Flink Table Store 典型应用场景 立即下载