开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:Spark 原理_逻辑图_小结】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/12011
Spark 原理_逻辑图_小结
内容简介
一、回顾
二、明确边界
三、RDD 如何生成
一、回顾
目前,已经学过了两个算子如何生成rdd,接下来会对之前学过的内容做小总结,明确思路
二、明确边界
1.明确的是 RDD 逻辑图的边界 //真正要去讨论的就是逻辑执行图 从
哪开始,到哪里结束
2.逻辑图从第一个 RDD 的创建开始
3.逻辑图到 action 算子执行之间结束
4.逻辑图就是一组 RDD 以及其依赖关系 // 最根本上 rdd 有这个依赖关系,逻辑执行图就是 rdd 整个生成
5.RDD 五大属性
(1)分区列表//非可选
(2)依赖关系//非可选
(3)计算函数//非可选
(4)最佳位置//在这个 RDD 中没有,会被继承父 RDD 的最佳位置可选
(5)分区函数// 只有 kyu 型的 RDD 才有 可选
三、RDD 如何生成
1.HadoopRDD,重写了分区列表和计算函数//重写分区列表的意义:让 hadoppRDD 的分区对应 HIDFS 文件上的block 分片;为什么要重写计算函数:hadoppRDD的分区已经对应 HIDFS 文件上的 block 分片,可以通过计算函数读取这些分片
2.MappartitionsRDD,通过 map 和 flatmap 生成,重写 compute 函数,处理整个 RDD 的数据。