RDD 算子_ Action _总结 | 学习笔记

简介: 快速学习 RDD 算子_ Action _总结

开发者学堂课程【大数据Spark2020最新课程(知识精讲与实战演练)第二阶段RDD 算子_ Action _总结学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11984


RDD 算子_ Action _总结


内容介绍

一、前言

二、总结


一、前言

我们了解 RDD 如何使用,其实就是了解它的各种算子。前面的学习中介绍了转换算子和部分Action 算子。


二、总结

第一个介绍的 Action 算子是 reduce ,并把它与 reduceByKey 来进行了对比,也是有一点点难度的算子。

介绍了一个辅助算子,叫做 foreach ,可以直接针对 RDD 进行

foreach foreach 后的数据顺序会发生改变,因为整个运算过程是

并行的。

后面又介绍了 count countByKey ,它们都是求总数的,一个是求整个数据集的总数,一个是按照 Key 求总数。 countByKey 经常用于查看数据倾斜。

最后了解了 take takeSample first 三个算子,它们也是用于

Action 直接获取数据。 takeSample Sample 最大的区别是,

takeSample 直接可以获取结果, Sample 则需要转换,然后进行

Action 获取结果。

take 可以直接获取数据, first 获取第一个数据。

但是 first 跟其他算子不一样,它直接去找第一个分区,获取一个数据

即可,获取速度相当快。

这是整个 Action 部分的算子,至此,整个 Action 操作的内容就到此结束了。

相关文章
|
7月前
|
机器学习/深度学习 分布式计算 数据库连接
[Spark精进]必须掌握的4个RDD算子之filter算子
[Spark精进]必须掌握的4个RDD算子之filter算子
153 2
|
7月前
|
分布式计算 Scala Spark
[Spark精进]必须掌握的4个RDD算子之map算子
[Spark精进]必须掌握的4个RDD算子之map算子
114 0
|
7月前
|
分布式计算 Spark
[Spark精进]必须掌握的4个RDD算子之flatMap算子
[Spark精进]必须掌握的4个RDD算子之flatMap算子
117 0
|
分布式计算 大数据 调度
RDD 算子_ Action _ countByKey | 学习笔记
快速学习 RDD 算子_ Action _ countByKey
RDD 算子_ Action _ countByKey | 学习笔记
|
分布式计算 大数据 数据处理
RDD 算子_ Action _ take | 学习笔记
快速学习 RDD 算子_ Action _ take
RDD 算子_ Action _ take | 学习笔记
|
分布式计算 算法 大数据
RDD 算子_ Action _ reduce | 学习笔记
快速学习 RDD 算子_ Action _ reduce
122 0
RDD 算子_ Action _ reduce | 学习笔记
|
分布式计算 大数据 开发者
RDD 算子_ Action _ foreach | 学习笔记
快速学习 RDD 算子_ Action _ foreach
RDD 算子_ Action _ foreach | 学习笔记
|
数据采集 分布式计算 大数据
Rdd 算子_转换_filter | 学习笔记
快速学习 Rdd 算子_转换_filter
107 0
Rdd 算子_转换_filter | 学习笔记
|
分布式计算 大数据 开发者
RDD 算子_转换 join | 学习笔记
快速学习 RDD 算子_转换 join
106 0
RDD 算子_转换 join | 学习笔记
|
分布式计算 大数据 开发者
Rdd 算子_转换_groupbykey | 学习笔记
快速学习 Rdd 算子_转换_groupbykey
151 0
Rdd 算子_转换_groupbykey | 学习笔记