开发者社区> 问答> 正文

Spark早期的shuffle过程存在的问题是什么?

Spark早期的shuffle过程存在的问题是什么?

展开
收起
游客fbdr25iajcjto 2021-12-06 21:17:55 543 0
1 条回答
写回答
取消 提交回答
  • 1) map任务的中间结果首先存入内存,然后才写入磁盘。这对于内存的开销很大,当一个节点上map任务的输出结果集很大时,很容易导致内存紧张,进而发生内存溢出(out of memory , OOM);

    2) 每个map任务都会输出R(reduce任务数量)个bucket。假如M等于1000,R也等于1000,那么共计生成100万个bucket,在bucket本身不大,但是shuffle很频繁的情况下,磁盘I/O将称为性能瓶颈。

    2021-12-06 21:18:29
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载