开发者社区> 问答> 正文

stage划分算法是怎样的?

stage划分算法是怎样的?

展开
收起
游客fbdr25iajcjto 2021-12-06 22:22:30 526 0
1 条回答
写回答
取消 提交回答
  • stage划分算法如下:

    涉及的数据结构:栈、HashSet

    1.通过最后的RDD,获取父RDD

    2.将finalRDD放入栈中,然后出栈,进行for循环的找到RDD的依赖,需要注意的是RDD可能有多个依赖

    3.如果RDD依赖是ShuffleDependency,那么就可以划分成为一个新的Stage,然后通过getShuffleMapStage()获取这个stage的父stage;如果是一般的窄依赖,那么将会入栈

    4.通过getShuffleMapStage()递归调用,得到父stage;一直到父stage是null

    5.最后返回stage的集合

    2021-12-06 22:23:07
    赞同 展开评论 打赏
问答标签:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
数据+算法定义新世界 立即下载
袋鼠云基于实时计算的反黄牛算法 立即下载
Alink:基于Apache Flink的算法平台 立即下载