Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记

简介: 快速学习 Spark 原理_运行过程_stage 和 task 的关系

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_运行过程_stage 和 task 的关系】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12027


Spark 原理_运行过程_stage 和 task 的关系


内容简介

一、stage task 的关系

二、Taskset

 

在了解了 stage job 之间的关系后,再去了解更细的例子,最大执行的例子就是 jobjob 中又分为 stage

 

一、stage task 的关系

image.png

Stage1能否直接运行,计算 rdd。一个 stage 中的所有分区都是窄依赖,一个 stage 中包含的分区,一定全都是窄依赖

1.一个 Stage 中的 RDD 之间是窄依赖,遇到宽依赖会进行分区

RDD 之间有分区,RDD 本是是不存储数据的,数据存储在 RDD 的分区中,所以针对 rdd 的分区进行计算,所以不能在 stage 中计算一整个 rdd ,只能计算对分区,在同一个 task

2.一个 task 对应一个 RDD 的分区

Stage 中有多个 tasktask 的数目取决与 最后一个 RDD 分区的数目。

例如 stage1 中又三个分区,就有三个 task;四个分区,就有四个 task,五个分区,就有五个 task

 

二、Taskset

1.梳理一下这几个概念,job> stage> task, job 中包含 stage 中包含 tesk

stage 中经常会有一组 task 需要同时执行,所以针对每一个 task 来进行调度太过繁琐,而且没有意义,所以每个 stage 中的 task 们会被收集起来,放入一个 taskset 集合中。

2.一个 stage 有一个 taskset

一个 taskset 就对应了 RDD 中的所有分区,一个 RDD 中有多少分区,就会生成多少个 taskset

3.Taskset task 的个数由 stage 中的最大分区数决定

最后按照 taskset 调度到集群中运行

总结

一个 stage 中由多个 task

一个 stage 对应一个 taskset

一个 taskset 就是一组 task

相关文章
|
6月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
132 0
|
1月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
26 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
1月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
39 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
1月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
47 0
|
1月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
81 0
|
4月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
42 0
|
5月前
|
分布式计算 DataWorks 网络安全
DataWorks操作报错合集之还未运行,spark节点一直报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
分布式计算 Spark

热门文章

最新文章

下一篇
无影云桌面