Rdd 算子_转换_集合操作 | 学习笔记

简介: 快速学习 Rdd 算子_转换_集合操作

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Rdd 算子_转换_集合操作】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11971


Rdd 算子_转换_集合操作


内容介绍:

一、交集并集差集的说明

二、交集

三、并集

四、差集

 

一、交集并集差集的说明

rdd 当中如何进行集合的操作,集合的操作一般分为交集 并集和差集。

假如有俩个集合,集合 a 和集合 b,交集即中间相交的位置。并集就是 a b 里面整个所有的位置。a b,指的就是 a 里面有,但是 b 里面没有的。如下图所示:

image.png

那么上述上个操作在 spark 中如何实现呢?

 

二、交集

进入 IDEA,先去进行第一个交集操作,定义俩个集合 rdd1,生成五个元素,里面有1,2,3,4,5这五个元素,定义一个集合 rdd2,里面有3,4,5,6,7,五个元素,就需要求交集,intersectionrdd2),进行收集和打印。

@Test

def intersection(): Unit=(

val rdd1 = sc.parallelize(Seq(1, 2, 3, 4, 5))val rdd2 = sc.parallelize(Seq(3, 4, 5, 6, 7))

rdd1.intersection(rdd2)

.collect()

.foreach(println(_))

]

运行结果如下:

image.png

 

三、并集

并集的方法和交集类似,并集使用的是 union

并集

★/

@Test

def union():Unit =[

val rddl = sc.parallelize(Seq(1, 2, 3,4, 5))val rdd2 = sc.parallelize(Seq(3, 4, 5, 6, 7))I

rdd1.union(rdd2)

.collect()

.foreach(println(_))

运行结果如下:

image.png

 

 

四、差集

差集使用的是 subtract,即 rdd1.subtractrdd2

差集

★/

@Test

def subtract():Unit = [

val rdd1 = sc.parallelize(Seq(1, 2, 3, 4, 5))val rdd2 = sc.parallelize(Seq(3, 4, 5, 67)

rdd1.subtract(rdd2)

.collect()

.foreach(println(_)) I

3

运行结果如下:

image.png

如果是交集,相当于 a 里面有,b 中也有。并集就是把俩个集合并在一起,可以有重复。差集就是 a 里面有,但 b 里面没有。

相关文章
|
存储 人工智能 安全
阿里云产品三月刊来了
阿里云计算、存储、大数据、AI及安全多款产品能力新升级,详情请点击
471 2
|
存储 程序员 芯片
微机原理与接口技术 8086微处理器系统结构详解
本文主要详解8086微处理器系统结构。主要从以下几个方面进行分析与总结:8086 CPU结构、EU与BIU的结构和功能、8086寄存器结构、8086系统时钟与指令周期、周期概念、8086系统时钟、指令周期、总线周期、8086存储器组织、堆栈的概念、存储器组织与I/O结构、存储体与总线的连接、8086的内外部中断、中断向量表。
2241 0
微机原理与接口技术 8086微处理器系统结构详解
|
10月前
|
存储 数据挖掘 索引
Pandas Series 和 DataFrame 常用属性详解及实例
Pandas 是 Python 数据分析的重要工具,其核心数据结构 Series 和 DataFrame 广泛应用。本文详细介绍了这两种结构的常用属性,如 `index`、`values`、`dtype` 等,并通过具体示例帮助读者更好地理解和使用这些属性,提升数据分析效率。
476 4
|
数据安全/隐私保护 Windows
LabVIEW项目中使用库
LabVIEW项目中使用库
265 1
|
搜索推荐 安全 数据安全/隐私保护
构建高效网站后台会员管理系统:实战指南与代码示例
【7月更文挑战第5天】在当今的互联网时代,几乎每个网站或应用程序都需要一个强大的会员管理系统来维护用户信息、权限控制以及个性化体验。一个设计良好的会员管理系统不仅能够提升用户体验,还能增强数据安全性和运营效率。本文将深入探讨如何从零开始构建一个网站后台会员管理系统,涵盖系统设计思路、关键技术选型、功能模块实现,以及实战代码示例。
1259 3
六自由度Stewart平台的matlab模拟与仿真
**摘要** 探索MATLAB2022a模拟6-DOF Stewart平台,模拟动态变化及伺服角度。平台实现XYZ平移及绕XYZ轴旋转。结构含中心动平台、固定基座及6个伺服驱动的伸缩连杆。运动学原理涉及球铰/虎克铰的转动自由度。通过动力学分析解决输入力矩到平台加速度的转换。核心算法与模型揭示了平台的精密定位能力。仿真结果显示动态性能。
|
Ubuntu Linux
探险迷宫——在Linux上畅玩Nethack
Nethack是一款经典的命令行角色扮演游戏,它在Linux系统上备受喜爱。在这个游戏中,你将进入一个神秘的地牢,探险、战斗、寻找宝藏,面对各种怪物和陷阱。本文将介绍如何在Linux上安装、运行和玩Nethack,以及一些游戏中的基本策略和技巧。
745 0
|
存储 索引 Python
NumPy 教程 之 NumPy 数组属性 1
NumPy教程介绍数组属性:秩表示维度,如一维数组秩为1,二维为2。轴(axis)定义了数组的线性方向,axis=0操縱列,axis=1操纵行。关键属性包括:ndim-秩,shape-维度大小,size-元素总数,dtype-数据类型,itemsize-元素字节大小,flags-内存信息,real/imag-复数部分,data-元素缓冲区。
121 5
|
算法 计算机视觉 Python
【python工具】WebP格式转成JPG、PNG和JPEG
平时在网上搜索图片,另存为时常常遇到 WebP 格式,而非常见的 JPG、PNG、JPEG 格式,所以以此文记录一下WebP的读取和转换方法,希望对大家有所帮助!🥸
|
Python Go Java
Golang每日一练(leetDay0020) 单词长度、螺旋矩阵II、排列序列
Golang每日一练(leetDay0020) 单词长度、螺旋矩阵II、排列序列
149 0
Golang每日一练(leetDay0020) 单词长度、螺旋矩阵II、排列序列