开发者社区> 问答> 正文

Sort-based shuffle的缺陷?

Sort-based shuffle的缺陷?

展开
收起
茶什i 2019-10-29 14:07:10 1441 0
1 条回答
写回答
取消 提交回答
  • 1) 如果mapper中task的数量过大,依旧会产生很多小文件,此时在shuffle传递数据的过程中reducer段,reduce会需要同时大量的记录进行反序列化,导致大量的内存消耗和GC的巨大负担,造成系统缓慢甚至崩溃
    2)如果需要在分片内也进行排序,此时需要进行mapper段和reducer段的两次排序

    2019-10-30 15:06:10
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
SPARK ML WITH HIGH DIMENSIONAL 立即下载
Spark ML with High Dimensional Labels 立即下载
Cost-Based Optimizer in Apache 立即下载