Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记

简介: 快速学习 Spark 原理_运行过程_stage 和 task 的关系

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_运行过程_stage 和 task 的关系】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12027


Spark 原理_运行过程_stage 和 task 的关系


内容简介

一、stage task 的关系

二、Taskset

 

在了解了 stage job 之间的关系后,再去了解更细的例子,最大执行的例子就是 jobjob 中又分为 stage

 

一、stage task 的关系

image.png

Stage1能否直接运行,计算 rdd。一个 stage 中的所有分区都是窄依赖,一个 stage 中包含的分区,一定全都是窄依赖

1.一个 Stage 中的 RDD 之间是窄依赖,遇到宽依赖会进行分区

RDD 之间有分区,RDD 本是是不存储数据的,数据存储在 RDD 的分区中,所以针对 rdd 的分区进行计算,所以不能在 stage 中计算一整个 rdd ,只能计算对分区,在同一个 task

2.一个 task 对应一个 RDD 的分区

Stage 中有多个 tasktask 的数目取决与 最后一个 RDD 分区的数目。

例如 stage1 中又三个分区,就有三个 task;四个分区,就有四个 task,五个分区,就有五个 task

 

二、Taskset

1.梳理一下这几个概念,job> stage> task, job 中包含 stage 中包含 tesk

stage 中经常会有一组 task 需要同时执行,所以针对每一个 task 来进行调度太过繁琐,而且没有意义,所以每个 stage 中的 task 们会被收集起来,放入一个 taskset 集合中。

2.一个 stage 有一个 taskset

一个 taskset 就对应了 RDD 中的所有分区,一个 RDD 中有多少分区,就会生成多少个 taskset

3.Taskset task 的个数由 stage 中的最大分区数决定

最后按照 taskset 调度到集群中运行

总结

一个 stage 中由多个 task

一个 stage 对应一个 taskset

一个 taskset 就是一组 task

相关文章
|
6月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
111 0
|
6月前
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
474 0
|
6月前
|
存储 分布式计算 数据处理
bigdata-35-Spark工作原理
bigdata-35-Spark工作原理
41 0
|
6月前
|
分布式计算 监控 Spark
Spark 任务运行时日志分析
Spark 任务运行时日志分析
95 0
|
22天前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
15 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
22天前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
30 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
22天前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
33 0
|
22天前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
61 0
|
4月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
6月前
|
SQL 存储 分布式计算
spark执行sql的原理是什么
spark执行sql的原理是什么
110 1