Spark RDD

简介: transformation和action

一个常用的Spark RDD的开发知识是transformation和action。

Transformations是指可以将一个Spark RDD转换为另一个RDD的操作。这些操作并不会立即执行,而是在遇到一个Action操作时才会执行。常见的Transformations操作包括map、filter、groupBy、reduceByKey,以及join等。

例如,下面的代码将一个RDD中的所有值加倍:

data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)
new_rdd = rdd.map(lambda x: x*2)

Action是指需要对RDD执行的操作,它会返回最终结果或写入到外部存储器中。常见的Action操作包括collect、count、first、reduce,以及saveAsTextFile等。

例如,下面的代码将一个RDD中的所有元素相加并返回结果:

data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data)
result = rdd.reduce(lambda x, y: x+y)
print(result) # 输出15

同时,还可以使用一些特殊的函数,如mapPartitions和filter,它们可以处理分区内的数据而不是单个元素,提高了代码的效率和性能。

对RDD的处理是Spark运行的重点,Spark通过Transformations操作和Action操作的有机组合,可以完成各种数据处理任务。

目录
相关文章
|
5月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
209 1
|
2月前
|
分布式计算 Serverless 数据处理
|
5月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
|
5月前
|
分布式计算 Shell 开发工具
Spark编程实验二:RDD编程初级实践
Spark编程实验二:RDD编程初级实践
72 1
|
5月前
|
存储 分布式计算 程序员
Spark中的RDD介绍
Spark中的RDD介绍
36 0
|
5月前
|
分布式计算 Spark
Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
【2月更文挑战第14天】Spark【Spark学习大纲】简介+生态+RDD+安装+使用(xmind分享)
77 1
|
5月前
|
分布式计算 Hadoop Java
Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
【2月更文挑战第14天】Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
106 1
|
5月前
|
存储 缓存 分布式计算
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
Spark学习--day04、RDD依赖关系、RDD持久化、RDD分区器、RDD文件读取与保存
|
5月前
|
分布式计算 并行计算 Hadoop
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
|
5月前
|
分布式计算 数据处理 Apache
Spark RDD的行动操作与延迟计算
Spark RDD的行动操作与延迟计算
Spark RDD的行动操作与延迟计算
下一篇
无影云桌面