开发者社区 问答 正文

Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

展开
收起
茶什i 2019-10-28 15:59:06 2487 分享 版权
1 条回答
写回答
取消 提交回答
  • 答:在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子。这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销。

    2019-10-28 16:27:52
    赞同 展开评论