开发者社区 问答 正文

Spark中将DAG划分为Stage剖析是什么?

Spark中将DAG划分为Stage剖析是什么?

展开
收起
芯在这 2021-12-10 22:34:32 398 分享
分享
版权
举报
1 条回答
写回答
取消 提交回答
  • 从HDFS中读入数据生成3个不同的RDD,通过一系列transformation操作后再将计算结果保存回HDFS。可以看到这个DAG中只有join操作是一个宽依赖,Spark内核会以此为边界将其前后划分成不同的Stage. 同时我们可以注意到,在图中Stage2中,从map到union都是窄依赖,这两步操作可以形成一个流水线操作,通过map操作生成的partition可以不用等待整个RDD计算结束,而是继续进行union操作,这样大大提高了计算的效率。 image.png

    2021-12-10 22:59:12 举报
    赞同 评论

    评论

    全部评论 (0)

    登录后可评论