开发者社区> 问答> 正文

Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

展开
收起
茶什i 2019-10-28 15:59:06 2442 0
1 条回答
写回答
取消 提交回答
  • 答:在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子。这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销。

    2019-10-28 16:27:52
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载