开发者社区 问答 正文

spark中RangePartitioner如何分区?

spark中RangePartitioner如何分区?

展开
收起
芯在这 2021-12-11 22:26:48 359 分享 版权
1 条回答
写回答
取消 提交回答
  • RangePartitioner分区(范围分区):

    通过抽样确定各个Partition的Key范围。首先会对采样的key进行排序,然后计算每个Partition平均包含的Key权重,最后采用平均分配原则来确定各个Partition包含的Key范围。尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,一个分区中的元素肯定都是比另一个分区内的元素小或者大;但是分区内的元素是不能保证顺序的。(计算每个Key所在Partition:当分区范围长度在128以内,使用顺序搜索来确定Key所在的Partition,否则使用二分查找算法来确定Key所在的Partition。)

    2021-12-11 22:27:02
    赞同 展开评论
问答分类:
问答标签:
问答地址: