Spark 原理_逻辑图_小结 | 学习笔记

简介: 快速学习 Spark 原理_逻辑图_小结

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_逻辑图_小结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12011


Spark 原理_逻辑图_小结


内容简介

一、回顾

二、明确边界

三、RDD 如何生成


一、回顾

目前,已经学过了两个算子如何生成rdd,接下来会对之前学过的内容做小总结,明确思路

 

二、明确边界

1.明确的是 RDD 逻辑图的边界 //真正要去讨论的就是逻辑执行图                                                                                                从

哪开始,到哪里结束

2.逻辑图从第一个 RDD 的创建开始

3.逻辑图到 action 算子执行之间结束

4.逻辑图就是一组 RDD 以及其依赖关系 // 最根本上 rdd 有这个依赖关系,逻辑执行图就是 rdd 整个生成

5.RDD 五大属性

1)分区列表//非可选

2)依赖关系//非可选

3)计算函数//非可选

4)最佳位置//在这个 RDD 中没有,会被继承父 RDD 的最佳位置可选

5)分区函数// 只有 kyu 型的 RDD 才有 可选

 

三、RDD 如何生成

1.HadoopRDD,重写了分区列表和计算函数//重写分区列表的意义:让 hadoppRDD 的分区对应 HIDFS 文件上的block 分片;为什么要重写计算函数:hadoppRDD的分区已经对应 HIDFS 文件上的 block 分片,可以通过计算函数读取这些分片

2.MappartitionsRDD通过 map flatmap 生成,重写 compute 函数,处理整个 RDD 的数据。

相关文章
|
5月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
40 0
|
分布式计算 大数据 Spark
高级特性_闭包_Spark 闭包分发 | 学习笔记
快速学习 高级特性_闭包_Spark 闭包分发
高级特性_闭包_Spark 闭包分发 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_总体介绍_物理执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_物理执行图
111 0
Spark 原理_总体介绍_物理执行图 | 学习笔记
|
分布式计算 大数据 数据处理
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
快速学习 Spark 原理_总体介绍_逻辑执行图
122 0
Spark 原理_总体介绍_逻辑执行图 | 学习笔记
|
分布式计算 大数据 调度
Spark 原理_总体介绍_集群环境 | 学习笔记
快速学习 Spark 原理_总体介绍_集群环境
Spark 原理_总体介绍_集群环境 | 学习笔记
|
分布式计算 大数据 Spark
Spark 原理_总体介绍_概要 | 学习笔记
快速学习 Spark 原理_总体介绍_概要
Spark 原理_总体介绍_概要 | 学习笔记
|
分布式计算 Hadoop 大数据
Spark 原理_总结介绍_案例编写 | 学习笔记
快速学习 Spark 原理_总结介绍_案例编写
114 0
Spark 原理_总结介绍_案例编写 | 学习笔记
|
分布式计算 大数据 调度
Spark 原理_运行过程_总结和流程 | 学习笔记
快速学习 Spark 原理_运行过程_总结和流程
108 0
Spark 原理_运行过程_总结和流程 | 学习笔记
|
缓存 分布式计算 Hadoop
Spark 原理_运行过程_概念介绍 | 学习笔记
快速学习 Spark 原理_运行过程_概念介绍
128 0
Spark 原理_运行过程_概念介绍 | 学习笔记
|
存储 分布式计算 大数据
Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记
快速学习 Spark 原理_运行过程_stage 和 task 的关系
207 0
Spark 原理_运行过程_stage 和 task 的关系 | 学习笔记