Spark 原理_逻辑图_RDD 之间的多对一 | 学习笔记

简介: 快速学习 Spark 原理_逻辑图_RDD 之间的多对一

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_逻辑图_RDD 之间的多对一】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12013


Spark 原理_逻辑图_RDD 之间的多对一


内容简介

一、了解 RDD 之间有哪些依赖关系

二、回顾一对一的关系

三、多对一的关系

 

一、了解 RDD 之间有哪些依赖关系

1.一对一的关系

2.多对一的关系

 

二、回顾一对一的关系

1.前面已经讲到了 textRDD splitRDD tupleRDD 中的各个分区都是一一对应的,后者的分区数据来源于前者,通过计算得到。

2.通过 textfile 读取,flatmap 展开,map 赋予词频

 

三、多对一的关系

举例

1.ReduceRDD 中的 p1 来源于 tupleRDD p1p2p3的任何一个或多个,如下图:

image.png

TupleRDD:已经赋予初始词频的 RDD

ReduceRDD:经过 reduceByKey 处理生成的 RDD 类型:shuffledRDD

2.去掉两个 reducer 端的分区,只留下一个的话,reduceRDD 中的 p1,来源于 tupleRDD 中的 p1p2p3如图:

image.png

这一关系体现了多对一的关系

RDD 之间的关系,就是分区之间的关系 tupleRDD 中的分区,与 reduceRDD 之间的分区,就是多对一关系。

// tupleRDD p1 分区可能存 hadoop 1p2分区也存 hadoop 1p3 相同,这三个分区都要转化到 reduceRDD 中进行处理,所以这就是多对一的关系。

相关文章
|
2月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
|
2月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
|
2月前
|
分布式计算 Spark
Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
34 1
|
2月前
|
分布式计算 Hadoop Java
Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
【2月更文挑战第14天】Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
60 1
|
2月前
|
存储 缓存 分布式计算
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
|
3月前
|
分布式计算 并行计算 Hadoop
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
|
3月前
|
分布式计算 大数据 Java
Spark 大数据实战:基于 RDD 的大数据处理分析
Spark 大数据实战:基于 RDD 的大数据处理分析
138 0
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Apache Spark 的基本概念和在大数据分析中的应用
介绍 Apache Spark 的基本概念和在大数据分析中的应用
162 0
|
29天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
4月前
|
机器学习/深度学习 SQL 分布式计算
介绍 Apache Spark 的基本概念和在大数据分析中的应用。
介绍 Apache Spark 的基本概念和在大数据分析中的应用。