开发者社区> 问答> 正文

Spark中将DAG划分为Stage剖析是什么?

Spark中将DAG划分为Stage剖析是什么?

展开
收起
芯在这 2021-12-10 22:34:32 373 0
1 条回答
写回答
取消 提交回答
  • 从HDFS中读入数据生成3个不同的RDD,通过一系列transformation操作后再将计算结果保存回HDFS。可以看到这个DAG中只有join操作是一个宽依赖,Spark内核会以此为边界将其前后划分成不同的Stage. 同时我们可以注意到,在图中Stage2中,从map到union都是窄依赖,这两步操作可以形成一个流水线操作,通过map操作生成的partition可以不用等待整个RDD计算结束,而是继续进行union操作,这样大大提高了计算的效率。 image.png

    2021-12-10 22:59:12
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载