Spark 原理_概述和思路 | 学习笔记

简介: 快速学习 Spark 原理_概述和思路

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_概述和思路】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12003


Spark 原理_概述和思路


到此已经写了很多 spark 代码,也了解很多 spark 内容,特性和计算,那 spark 程序如何运行在 spark 集群?假设一个 word count,内部如何进行调度?如何进行任务拆分?数据如何流转?通过此问题来了解 spark 的底层原理,了解整个 spark 如何运行?

在 Spark 原理中遵循尽量不看代码的原则,通过抽象的表达,通过图看明白,尽量不看代码,最后阶段看整个源码流程。

步骤:

1. 总体介绍

2. 逻辑执行图

3. 物理执行图

4. 如何运行物理执行图

5. Spark shuffle 原理

根据对 spark 原理的了解,可以清楚 spark 运行原理,此章节内容多且难度大,需要通过提供的完备的笔记进行学习,疑惑可以课后讲解,不懂也可以,学习原理原因有:通过原理来了解 spark 如何运行,一般情况下评价技术人的水准有二类:第一类是只会写代码;第二类能理解自己在干什么。

通过原理来对 spark 调优深入理解,更有脉络和思路。

image.png

相关文章
|
4月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
74 0
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
292 0
|
4月前
|
存储 分布式计算 数据处理
bigdata-35-Spark工作原理
bigdata-35-Spark工作原理
38 0
|
4月前
|
分布式计算 并行计算 大数据
Spark学习---day02、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
Spark学习---day02、Spark核心编程 RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(一)
195 1
|
10月前
|
缓存 分布式计算 并行计算
Spark3:RDD概述
Spark3:RDD概述
110 0
|
10月前
|
SQL 存储 分布式计算
Spark1:概述
Spark1:概述
89 0
|
4月前
|
SQL 分布式计算 API
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
Spark学习------SparkSQL(概述、编程、数据的加载和保存)
134 2
|
4月前
|
存储 分布式计算 负载均衡
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
【大数据技术Hadoop+Spark】MapReduce概要、思想、编程模型组件、工作原理详解(超详细)
176 0
|
4月前
|
存储 分布式计算 Hadoop
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
【大数据技术Hadoop+Spark】HDFS概念、架构、原理、优缺点讲解(超详细必看)
383 0
|
4月前
|
分布式计算 Java Scala
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)
Spark学习---day03、Spark核心编程(RDD概述、RDD编程(创建、分区规则、转换算子、Action算子))(二)