开发者学堂课程【大数据Spark2020最新课程(知识精讲与实战演练)第二阶段:RDD 算子_ Action _总结】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/11984
RDD 算子_ Action _总结
内容介绍
一、前言
二、总结
一、前言
我们了解 RDD 如何使用,其实就是了解它的各种算子。前面的学习中介绍了转换算子和部分Action 算子。
二、总结
第一个介绍的 Action 算子是 reduce ,并把它与 reduceByKey 来进行了对比,也是有一点点难度的算子。
介绍了一个辅助算子,叫做 foreach ,可以直接针对 RDD 进行
foreach , foreach 后的数据顺序会发生改变,因为整个运算过程是
并行的。
后面又介绍了 count 和 countByKey ,它们都是求总数的,一个是求整个数据集的总数,一个是按照 Key 求总数。 countByKey 经常用于查看数据倾斜。
最后了解了 take 、 takeSample 和 first 三个算子,它们也是用于
Action 直接获取数据。 takeSample 和 Sample 最大的区别是,
takeSample 直接可以获取结果, Sample 则需要转换,然后进行
Action 获取结果。
take 可以直接获取数据, first 获取第一个数据。
但是 first 跟其他算子不一样,它直接去找第一个分区,获取一个数据
即可,获取速度相当快。
这是整个 Action 部分的算子,至此,整个 Action 操作的内容就到此结束了。