Spark 宽窄依赖、DAG 的切割_1 | 学习笔记

简介: 快速学习  Spark 宽窄依赖、DAG 的切割_1

开发者学堂课程【大数据实时计算框架  Spark  快速入门  Spark  宽窄依赖、DAG  的切割_1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/100/detail/1665



Spark  宽窄依赖、DAG  的切割_1    


内容介绍:

一、窄依赖和宽依赖的例子

二、图示


一、窄依赖和宽依赖的例子

(方框表示  RDD  ,实心矩形表示分区)

image.png


 

二、图示

整张图对应一个  Job  

image.png

 

相关文章
|
28天前
|
分布式计算 资源调度 监控
什么是 Spark DAG?
【8月更文挑战第14天】
35 5
|
3月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
28 0
|
4月前
|
SQL 分布式计算 Java
IDEA 打包 Spark 项目 POM 文件依赖
这是一个 Maven POM 示例,用于构建一个使用 Spark 与 Hive 的项目,目标是将数据从 Hive 导入 ClickHouse。POM 文件设置了 Scala 和 Spark 的依赖,包括 `spark-core_2.12`, `spark-sql_2.12`, 和 `spark-hive_2.12`。`maven-assembly-plugin` 插件用于打包,生成包含依赖的和不含依赖的两种 JAR 包。`scope` 说明了依赖的使用范围,如 `compile`(默认),`provided`,`runtime`,`test` 和 `system`。
|
4月前
|
存储 缓存 分布式计算
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
|
4月前
|
SQL 分布式计算 大数据
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
203 0
|
存储 缓存 分布式计算
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(二)
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(二)
|
存储 缓存 分布式计算
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(一)
Spark学习--3、WordCount案例、RDD序列化、RDD依赖关系、RDD持久化(一)
|
分布式计算 大数据 Spark
高级特性_闭包_Spark 闭包分发 | 学习笔记
快速学习 高级特性_闭包_Spark 闭包分发
70 0
高级特性_闭包_Spark 闭包分发 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_总体介绍_物理执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_物理执行图
102 0
Spark 原理_总体介绍_物理执行图 | 学习笔记
|
分布式计算 大数据 数据处理
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_逻辑执行图
112 0
Spark 原理_总体介绍_逻辑执行图 | 学习笔记