开发者社区> 问答> 正文

数据混洗会对性能产生什么样的影响?

数据混洗会对性能产生什么样的影响?

展开
收起
芯在这 2021-12-05 21:33:44 373 0
1 条回答
写回答
取消 提交回答
  • 性能影响:

    shuffle操作涉及到网络传输数据,可能还有序列化的问题。它通过map来组织数据,通过reduce来聚集,(这里的mapreduce只是作为Hadoop的mapreduce意义的一种引申)

    shuffle操作会占用堆内存,当内存不够用时,就会把数据放到磁盘上。

    shuffle操作会在磁盘上产生大量的中间文件,这些文件只有在相关的RDD不再使用并被回收后,才会被删除。这样做的目的是多次shuffle的时候,不用重复进行计算。所以,长时间运行Spark的任务必定消耗巨大的磁盘空间。临时文件的目录可以通过spark.local.dir进行设置。

    2021-12-05 21:34:05
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
快速变化背景下,组织如何保持过程的稳定性 立即下载
快速变化背景下,组织如何保持过程的稳定性? 立即下载
Web服务架构变化及性能优化 立即下载