开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:Spark 原理_运行过程_总结和流程】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/12028
Spark 原理_运行过程_总结和流程
内容简介
一、流程图
二、步骤
前面讲解了一堆概念,接下来要讲解如何运行这一流程,我们了解完概念后,对流程进行梳理一遍,有哪些组件参与、那些组件是干什么的、之间如何进行交互。
一、流程图
打开笔记,右键点击在新标签页中代开图篇,如下:
二、步骤
1..将一个 wordcount.Scala 提交给 driver(负责运行程序的 map方法)
2.运行完后,会生成逻辑执行图,再把逻辑执行图调用 action,传给 DAGscheduler
3.DAGscheduler 会生成 stages,划分为阶段,每个阶段都会对应 taskset。
4.之后会请求 taskscheduler 帮忙调度这些 taskset。
5.Taskscheduer 会先去询问集群中还有多少资源,资源通过 scheduler backend 返回 taskscheduler
6.taskscheduler 会想好要调度到哪里,先调度 shufflemapstage(中间过程的 stage),执行 taskset
7.后调度到 result stage,最后执行结果,将结果发给 driver。
//中间两个大的组件:DAGscheduler、Taskscheduler
//stage 的两个子类:shufflemapstage、resultstage