浅谈Spark中Job-Stage-Task之间的关系-阿里云开发者社区

浅谈Spark中Job-Stage-Task之间的关系

2022-05-19 628

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 笔记

（1）Spark-Job-Stage-Task之间的关系

在开始之前需要先了解Spark中Application，Job，Stage等基本概念，官方给出的解释如下表：

如下图所示，一个Spark程序可以被划分为一个或多个Job，划分的依据是RDD的Action算子，每遇到一个RDD的Action操作就生成一个新的Job。

每个spark Job在具体执行过程中因为shuffle的存在，需要将其划分为一个或多个可以并行计算的stage，划分的依据是RDD间的依赖关系，当遇到宽依赖（Wide Dependency）时因需要进行shuffle操作，这涉及到了不同Partition之间进行数据合并，故以此为界划分不同的Stage。Stage是由Task组组成的并行计算，因此每个stage中可能存在多个Task，这些Task执行相同的程序逻辑，只是它们操作的数据不同。一般RDD的一个Partition对应一个Task,Task可以分为ResultTask和ShuffleMapTask。

（2）RDD-Partition-Records-Task之间的关系

通常一个RDD被划分为一个或多个Partition，Partition是Spark进行数据处理的基本单位，一般来说一个Partition对应一个Task，而一个Partition中通常包含数据集中的多条记录(Record)。注意不同Partition中包含的记录数可能不同。Partition的数目可以在创建RDD时指定，也可以通过reparation和coalesce等算子重新进行划分。

通常在进行shuffle的时候也会重新进行分区，这是对于key-value RDD，Spark通常根据RDD中的Partitioner来进行分区，目前Spark中实现的Partitioner有两种：HashPartitioner和RangePartitioner，当然也可以实现自定义的Partitioner，只需要继承抽象类Partitioner并实现numPartitions and getPartition(key: Any)即可。

将上面的概念串联起来，可以得到下面的运行层次图：

浅谈Spark中Job-Stage-Task之间的关系

（1）Spark-Job-Stage-Task之间的关系

（2）RDD-Partition-Records-Task之间的关系

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

浅谈Spark中Job-Stage-Task之间的关系

（1）Spark-Job-Stage-Task之间的关系

（2）RDD-Partition-Records-Task之间的关系

热门文章

最新文章

相关课程

相关电子书