Spark 算子操作及总结_1

简介: 快速学习 Spark 算子操作及总结_1

开发者学堂课程【大数据实时计算框架 Spark 快速入门Spark 算子操作及总结_1】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/100/detail/1691


Spark 算子操作及总结_1


内容简介:


一、TakeOperator

二、TakeSampleOperator

三、UnionOperator

四、JoinOperator

五、DistinctOperator

六、SortByKey Operator

七、SaveAsTextFileOperator

八、IntersectionOperator

九、CartesianOperator


一、TakeOperator


返回一个包含数据集前 n 个元素的数组(从0下标到n-1下标的元素),不排序。


二、TakeSampleOperator


对于一个数据集进行随机抽样,返回一个包含 num 个随机抽样元素的数组,withReplacement 表示是否有放回抽样,参数 seed 指定生成随机数的种子。

该方法仅在预期结果数组很小的情况下使用,因为所有数据都被加载到 driver 端的内存中。


三、UnionOperator


对于源数据集和其他数据集求并集,不去重。


四、JoinOperator


加入一个 RDD,在一个(k, v)和(k, w)类型的 dataSet_ 上调用,返回一个(k,(v, w) )的 pairdataSeto。


五、DistinctOperator


返回一个在源数据集去重之后的新数据集,即去重,并局部无序而整体有序返回。

注:之后 groupByKey、reduceByKey、aggregateByKey、sortByKey、 join、 cogroup 等 Transformation 操作均包含 [numTasks] 任务数这个参数,参考上一行链接理解。


六、SortByKeyOperator


同样是基于 pairRDD 的,根据 key 值来进行排序。ascending 升序,默认为 true,即升序; numTasks


七、SaveAsTextFileOperator


将 dataSet 中元素以文本文件的形式写入本地文件系统或者 HDFS 等。Spark 将 对每个元素调用 toString 方法,将数据元素转换为文本文件中的一行记录。若将文件保存到本地文件系统,那么只会保存在 executor 所在机器的本地目录。

相关文章
|
6月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
339 1
|
6月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
|
4月前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之 Spark Local模式启动报错,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
4月前
|
SQL 分布式计算 数据处理
MaxCompute操作报错合集之使用Spark查询时函数找不到的原因是什么
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
分布式计算 DataWorks MaxCompute
MaxCompute操作报错合集之在Spark访问OSS时出现证书错误的问题,该如何解决
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
分布式计算 DataWorks MaxCompute
DataWorks操作报错合集之spark操作odps,写入时报错,是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
MaxCompute操作报错合集之大数据计算的MaxCompute Spark引擎无法读取到表,是什么原因
|
5月前
|
分布式计算 大数据 数据处理
MaxCompute操作报错合集之spark客户端执行时,报错,该怎么办
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
5月前
|
分布式计算 DataWorks 网络安全
DataWorks操作报错合集之还未运行,spark节点一直报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
6月前
|
存储 分布式计算 API
adb spark的lakehouse api访问内表数据,还支持算子下推吗
【2月更文挑战第21天】adb spark的lakehouse api访问内表数据,还支持算子下推吗
144 2