RDD 算子_转换_总结 | 学习笔记

简介: 快速学习 RDD 算子_转换_总结

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段RDD 算子_转换_总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/11979


RDD 算子_转换_总结


内容介绍

一、前言

二、算子归类


一、前言

前面我们学习了很多算子,它们都是转换类型的算子,最重要的一个特点就是它们是惰性的。即在使用Transformation 操作后,并不会立即执行,而是要调用 Action 操作后,才会执行整个程序。

 

二、算子归类

第一类可以直接称之为转换。例如 map ,将数据从一种形式转化成另一种形式;mapPartitions ,是将一个分区里的数据从一种形式转化成另一种形式; mapValues ,转换 KV 类型的 Value 。第二类称之为过滤,它是一个单独定义的类别。例如, filter 是一个过滤, sample 是一个采样。第三类称之为集合操作。例如 intersection,交集; union ,并集; subtract ,叉集。第四类称之为叫聚合操作。例如 reduceByKey ,按照 Key 进行 reduce ;groupByKey ,用于将 Key 进行分组; combineByKey ,灵活性更高,是一个底层算子; foldByKey ,对原始数据进行一次处理;aggregateByKey ,也是一个底层算子。 sortBy sortByKey 也算聚合操作,前者是用于手动指定某一部分的数据进行排序,后者是指定的 KV 型数据按照 Key 进行排序,第五类称之为叫做重分区。它有两个操作算子, repartition coalesce ,前者默认情况下的分区数可增可减少,coalesce 默认只能减少。

相关文章
|
10月前
|
分布式计算
|
存储 缓存 分布式计算
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
111 0
Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)(下)
|
分布式计算 算法 大数据
RDD 算子_转换_ combineByKey | 学习笔记
快速学习 RDD 算子_转换_ combineByKey
106 0
RDD 算子_转换_ combineByKey | 学习笔记
|
分布式计算 大数据 Spark
Rdd 算子_转换_回顾 | 学习笔记
快速学习 Rdd 算子_转换_回顾
50 0
Rdd 算子_转换_回顾 | 学习笔记
|
分布式计算 算法 大数据
Rdd 算子_转换_mapvalues | 学习笔记
快速学习 Rdd 算子_转换_mapvalues
101 0
Rdd 算子_转换_mapvalues | 学习笔记
|
分布式计算 大数据 Scala
RDD 算子_转换_ foldByKey | 学习笔记
快速学习 RDD 算子_转换_ foldByKey
127 0
RDD 算子_转换_  foldByKey | 学习笔记
|
分布式计算 大数据 开发者
RDD 算子_转换_ aggregateByKey | 学习笔记
快速学习 RDD 算子_转换_ aggregateByKey
88 0
RDD 算子_转换_ aggregateByKey | 学习笔记
|
分布式计算 大数据 开发者
Rdd 算子_转换_groupbykey | 学习笔记
快速学习 Rdd 算子_转换_groupbykey
113 0
Rdd 算子_转换_groupbykey | 学习笔记
|
分布式计算 大数据 Spark
RDD 算子_转换_排序 | 学习笔记
快速学习 RDD 算子_转换_排序
72 0
RDD 算子_转换_排序 | 学习笔记
|
分布式计算 大数据 开发者
RDD 算子_转换 join | 学习笔记
快速学习 RDD 算子_转换 join
80 0
RDD 算子_转换 join | 学习笔记