开发者学堂课程【大数据实时计算框架 Spark 快速入门:Spark 算子操作及总结_1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/100/detail/1691
Spark 算子操作及总结_1
内容简介:
一、TakeOperator
二、TakeSampleOperator
三、UnionOperator
四、JoinOperator
五、DistinctOperator
六、SortByKey Operator
七、SaveAsTextFileOperator
八、IntersectionOperator
九、CartesianOperator
一、TakeOperator
返回一个包含数据集前 n 个元素的数组(从0下标到n-1下标的元素),不排序。
二、TakeSampleOperator
对于一个数据集进行随机抽样,返回一个包含 num 个随机抽样元素的数组,withReplacement 表示是否有放回抽样,参数 seed 指定生成随机数的种子。
该方法仅在预期结果数组很小的情况下使用,因为所有数据都被加载到 driver 端的内存中。
三、UnionOperator
对于源数据集和其他数据集求并集,不去重。
四、JoinOperator
加入一个 RDD,在一个(k, v)和(k, w)类型的 dataSet_ 上调用,返回一个(k,(v, w) )的 pairdataSeto。
五、DistinctOperator
返回一个在源数据集去重之后的新数据集,即去重,并局部无序而整体有序返回。
注:之后 groupByKey、reduceByKey、aggregateByKey、sortByKey、 join、 cogroup 等 Transformation 操作均包含 [numTasks] 任务数这个参数,参考上一行链接理解。
六、SortByKeyOperator
同样是基于 pairRDD 的,根据 key 值来进行排序。ascending 升序,默认为 true,即升序; numTasks
七、SaveAsTextFileOperator
将 dataSet 中元素以文本文件的形式写入本地文件系统或者 HDFS 等。Spark 将 对每个元素调用 toString 方法,将数据元素转换为文本文件中的一行记录。若将文件保存到本地文件系统,那么只会保存在 executor 所在机器的本地目录。