Spark 算子操作及总结_1

简介: 快速学习 Spark 算子操作及总结_1

开发者学堂课程【大数据实时计算框架 Spark 快速入门Spark 算子操作及总结_1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/100/detail/1691


Spark 算子操作及总结_1


内容简介:


一、TakeOperator

二、TakeSampleOperator

三、UnionOperator

四、JoinOperator

五、DistinctOperator

六、SortByKey Operator

七、SaveAsTextFileOperator

八、IntersectionOperator

九、CartesianOperator


一、TakeOperator


返回一个包含数据集前 n 个元素的数组(从0下标到n-1下标的元素),不排序。


二、TakeSampleOperator


对于一个数据集进行随机抽样,返回一个包含 num 个随机抽样元素的数组,withReplacement 表示是否有放回抽样,参数 seed 指定生成随机数的种子。

该方法仅在预期结果数组很小的情况下使用,因为所有数据都被加载到 driver 端的内存中。


三、UnionOperator


对于源数据集和其他数据集求并集,不去重。


四、JoinOperator


加入一个 RDD,在一个(k, v)和(k, w)类型的 dataSet_ 上调用,返回一个(k,(v, w) )的 pairdataSeto。


五、DistinctOperator


返回一个在源数据集去重之后的新数据集,即去重,并局部无序而整体有序返回。

注:之后 groupByKey、reduceByKey、aggregateByKey、sortByKey、 join、 cogroup 等 Transformation 操作均包含 [numTasks] 任务数这个参数,参考上一行链接理解。


六、SortByKeyOperator


同样是基于 pairRDD 的,根据 key 值来进行排序。ascending 升序,默认为 true,即升序; numTasks


七、SaveAsTextFileOperator


将 dataSet 中元素以文本文件的形式写入本地文件系统或者 HDFS 等。Spark 将 对每个元素调用 toString 方法,将数据元素转换为文本文件中的一行记录。若将文件保存到本地文件系统,那么只会保存在 executor 所在机器的本地目录。

相关文章
|
2月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
|
2月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
|
3天前
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
|
2月前
|
存储 分布式计算 Scala
bigdata-36-Spark转换算子与动作算子
bigdata-36-Spark转换算子与动作算子
6 0
|
2月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
107 2
|
2月前
|
分布式计算 Hadoop Java
Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
【2月更文挑战第14天】Spark【基础知识 03】【RDD常用算子详解】(图片来源于网络)
60 1
|
3月前
|
分布式计算 并行计算 Hadoop
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
|
4月前
|
分布式计算 监控 数据处理
Spark Streaming的DStream与窗口操作
Spark Streaming的DStream与窗口操作
|
4月前
|
JSON 分布式计算 关系型数据库
Spark中使用DataFrame进行数据转换和操作
Spark中使用DataFrame进行数据转换和操作
|
4月前
|
缓存 分布式计算 监控
Spark RDD操作性能优化技巧
Spark RDD操作性能优化技巧