Spark 原理_逻辑图_RDD 之间的多对一 | 学习笔记

简介: 快速学习 Spark 原理_逻辑图_RDD 之间的多对一

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_逻辑图_RDD 之间的多对一】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12013


Spark 原理_逻辑图_RDD 之间的多对一


内容简介

一、了解 RDD 之间有哪些依赖关系

二、回顾一对一的关系

三、多对一的关系

 

一、了解 RDD 之间有哪些依赖关系

1.一对一的关系

2.多对一的关系

 

二、回顾一对一的关系

1.前面已经讲到了 textRDD splitRDD tupleRDD 中的各个分区都是一一对应的,后者的分区数据来源于前者,通过计算得到。

2.通过 textfile 读取,flatmap 展开,map 赋予词频

 

三、多对一的关系

举例

1.ReduceRDD 中的 p1 来源于 tupleRDD p1p2p3的任何一个或多个,如下图:

image.png

TupleRDD:已经赋予初始词频的 RDD

ReduceRDD:经过 reduceByKey 处理生成的 RDD 类型:shuffledRDD

2.去掉两个 reducer 端的分区,只留下一个的话,reduceRDD 中的 p1,来源于 tupleRDD 中的 p1p2p3如图:

image.png

这一关系体现了多对一的关系

RDD 之间的关系,就是分区之间的关系 tupleRDD 中的分区,与 reduceRDD 之间的分区,就是多对一关系。

// tupleRDD p1 分区可能存 hadoop 1p2分区也存 hadoop 1p3 相同,这三个分区都要转化到 reduceRDD 中进行处理,所以这就是多对一的关系。

相关文章
|
27天前
|
存储 分布式计算 并行计算
【赵渝强老师】Spark中的RDD
RDD(弹性分布式数据集)是Spark的核心数据模型,支持分布式并行计算。RDD由分区组成,每个分区由Spark Worker节点处理,具备自动容错、位置感知调度和缓存机制等特性。通过创建RDD,可以指定分区数量,并实现计算函数、依赖关系、分区器和优先位置列表等功能。视频讲解和示例代码进一步详细介绍了RDD的组成和特性。
|
2月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
39 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
大数据-99 Spark 集群 Spark Streaming DStream 文件数据流、Socket、RDD队列流
31 0
|
2月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
55 0
|
2月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
85 0
|
2月前
|
SQL 分布式计算 大数据
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
大数据-94 Spark 集群 SQL DataFrame & DataSet & RDD 创建与相互转换 SparkSQL
66 0
|
2月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
39 4
|
2月前
|
存储 缓存 分布式计算
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
大数据-89 Spark 集群 RDD 编程-高阶 编写代码、RDD依赖关系、RDD持久化/缓存
46 4
|
2月前
|
SQL 分布式计算 大数据
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
大数据-91 Spark 集群 RDD 编程-高阶 RDD广播变量 RDD累加器 Spark程序优化
45 0
|
2月前
|
缓存 分布式计算 大数据
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
大数据-90 Spark 集群 RDD 编程-高阶 RDD容错机制、RDD的分区、自定义分区器(Scala编写)、RDD创建方式(一)
55 0