开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:Spark 原理_概述和思路】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/12003
Spark 原理_概述和思路
到此已经写了很多 spark 代码,也了解很多 spark 内容,特性和计算,那 spark 程序如何运行在 spark 集群?假设一个 word count,内部如何进行调度?如何进行任务拆分?数据如何流转?通过此问题来了解 spark 的底层原理,了解整个 spark 如何运行?
在 Spark 原理中遵循尽量不看代码的原则,通过抽象的表达,通过图看明白,尽量不看代码,最后阶段看整个源码流程。
步骤:
1. 总体介绍
2. 逻辑执行图
3. 物理执行图
4. 如何运行物理执行图
5. Spark shuffle 原理
根据对 spark 原理的了解,可以清楚 spark 运行原理,此章节内容多且难度大,需要通过提供的完备的笔记进行学习,疑惑可以课后讲解,不懂也可以,学习原理原因有:通过原理来了解 spark 如何运行,一般情况下评价技术人的水准有二类:第一类是只会写代码;第二类能理解自己在干什么。
通过原理来对 spark 调优深入理解,更有脉络和思路。