开发者社区> 问答> 正文

Sort-based shuffle的缺陷是什么?

Sort-based shuffle的缺陷是什么?

展开
收起
芯在这 2021-12-06 00:49:35 258 0
1 条回答
写回答
取消 提交回答
  • 如果mapper中task的数量过大,依旧会产生很多小文件,此时在shuffle传递数据的过程中reducer段,reduce会需要同时大量的记录进行反序列化,导致大量的内存消耗和GC的巨大负担,造成系统缓慢甚至崩溃。

    如果需要在分片内也进行排序,此时需要进行mapper段和reducer段的两次排序。

    2021-12-06 00:49:54
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
SPARK ML WITH HIGH DIMENSIONAL 立即下载
Spark ML with High Dimensional Labels 立即下载
Streaming Outlier Analysis for Fun and Scalability 立即下载