开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段:Spark 原理_总体介绍_物理执行图】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/689/detail/12008
Spark 原理_总体介绍_物理执行图
逻辑执行图是 RDD 链条,描述的是数据如何处理,步骤。
RDD 表示数据或者数据如何计算得来,并不是真正的运行单位,为此需要生成物理执行图,通过物理任务,执行 RDD 的链条,逻辑并不真实存在,在物理中执行 RDD 成为物理执行图。整体关系为逻辑执行图表达了数据如何计算,通过物理执行图表达数据如何计算,然后物理执行图放入集群中,这就是整个链条。
物理执行图是放在同一个任务当中的。
物理执行图是分阶段的,三个分区可以放在一个场所中,但后一分区依赖前一分区的所有分区,中间是 shuffle 操作,因而中间需要分开,即后一部分需等前一部分结束再运行,此即为物理执行图。
横向分区成为 task,整个阶段称为 stage,第二分区输出的结果传给 driver,,将数据展示给用户。
总结:
物理执行图描述 RDD 放在集群中去运行。其实整个 spark 原理所研的东西就是究集群是什么,逻辑执行图和物理执行图是什么,如何去运行物理执行图四个问题。