Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记

简介: 快速学习 Spark 原理_运行过程_stage 和 task 的关系

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_运行过程_stage 和 task 的关系】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12027


Spark 原理_运行过程_stage 和 task 的关系


内容简介

一、stage task 的关系

二、Taskset

 

在了解了 stage job 之间的关系后,再去了解更细的例子,最大执行的例子就是 jobjob 中又分为 stage

 

一、stage task 的关系

image.png

Stage1能否直接运行,计算 rdd。一个 stage 中的所有分区都是窄依赖,一个 stage 中包含的分区,一定全都是窄依赖

1.一个 Stage 中的 RDD 之间是窄依赖,遇到宽依赖会进行分区

RDD 之间有分区,RDD 本是是不存储数据的,数据存储在 RDD 的分区中,所以针对 rdd 的分区进行计算,所以不能在 stage 中计算一整个 rdd ,只能计算对分区,在同一个 task

2.一个 task 对应一个 RDD 的分区

Stage 中有多个 tasktask 的数目取决与 最后一个 RDD 分区的数目。

例如 stage1 中又三个分区,就有三个 task;四个分区,就有四个 task,五个分区,就有五个 task

 

二、Taskset

1.梳理一下这几个概念,job> stage> task, job 中包含 stage 中包含 tesk

stage 中经常会有一组 task 需要同时执行,所以针对每一个 task 来进行调度太过繁琐,而且没有意义,所以每个 stage 中的 task 们会被收集起来,放入一个 taskset 集合中。

2.一个 stage 有一个 taskset

一个 taskset 就对应了 RDD 中的所有分区,一个 RDD 中有多少分区,就会生成多少个 taskset

3.Taskset task 的个数由 stage 中的最大分区数决定

最后按照 taskset 调度到集群中运行

总结

一个 stage 中由多个 task

一个 stage 对应一个 taskset

一个 taskset 就是一组 task

目录
打赏
0
0
0
0
127
分享
相关文章
Spark的几种去重的原理分析
Spark的几种去重的原理分析
191 0
Spark Master HA 主从切换过程不会影响到集群已有作业的运行, 为什么?
Spark Master 的高可用性(HA)机制确保主节点故障时,备用主节点能无缝接管集群管理,保障稳定运行。关键在于: 1. **Driver 和 Executor 独立**:任务执行不依赖 Master。 2. **应用状态保持**:备用 Master 通过 ZooKeeper 恢复集群状态。 3. **ZooKeeper 协调**:快速选举新 Master 并同步状态。 4. **容错机制**:任务可在其他 Executor 上重新调度。 这些特性保证了集群在 Master 故障时仍能正常运行。
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
107 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
68 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
169 0
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
139 0
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
DataWorks操作报错合集之还未运行,spark节点一直报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
128 79
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
332 2
ClickHouse与大数据生态集成:Spark & Flink 实战