开发者社区 问答 正文

不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快?

不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快?

展开
收起
茶什i 2019-10-29 14:03:08 1637 分享 版权
1 条回答
写回答
取消 提交回答
  • 不一定!!当数据规模小,Hash shuffle快于Sorted Shuffle数据规模大的时候;当数据量大,sorted Shuffle会比Hash shuffle快很多,因为数量大的有很多小文件,不均匀,甚至出现数据倾斜,消耗内存大,1.x之前spark使用hash,适合处理中小规模,1.x之后,增加了Sorted shuffle,Spark更能胜任大规模处理了。

    2019-10-30 15:03:38
    赞同 展开评论
问答地址: