开发者社区 问答 正文

带Distinct的Count算子与不带Distinct的Count算子在执行计划上有何区别?

带Distinct的Count算子与不带Distinct的Count算子在执行计划上有何区别?

展开
收起
夹心789 2024-05-29 16:47:08 54 分享 版权
1 条回答
写回答
取消 提交回答
  • 带Distinct的Count算子在执行计划中,Map Task输出的中间结果无法预聚合,需要将带有去重字段的明细数据传输到Reduce阶段,因此运行速度较慢。而不带Distinct的Count算子则可以在Map阶段进行预聚合,减少数据传输量,从而提高运行速度。

    2024-05-29 20:28:29
    赞同 展开评论
问答地址: