Spark 原理_总体介绍_物理执行图 | 学习笔记

简介: 快速学习 Spark 原理_总体介绍_物理执行图

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_总体介绍_物理执行图】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12008


Spark 原理_总体介绍_物理执行图


逻辑执行图是 RDD 链条,描述的是数据如何处理,步骤。

RDD 表示数据或者数据如何计算得来,并不是真正的运行单位,为此需要生成物理执行图,通过物理任务,执行 RDD 的链条,逻辑并不真实存在,在物理中执行 RDD 成为物理执行图。整体关系为逻辑执行图表达了数据如何计算,通过物理执行图表达数据如何计算,然后物理执行图放入集群中,这就是整个链条。

image.png

物理执行图是放在同一个任务当中的。

物理执行图是分阶段的,三个分区可以放在一个场所中,但后一分区依赖前一分区的所有分区,中间是 shuffle 操作,因而中间需要分开,即后一部分需等前一部分结束再运行,此即为物理执行图。

横向分区成为 task,整个阶段称为 stage,第二分区输出的结果传给 driver,,将数据展示给用户。

总结:

物理执行图描述 RDD 放在集群中去运行。其实整个 spark 原理所研的东西就是究集群是什么,逻辑执行图和物理执行图是什么,如何去运行物理执行图四个问题。

相关文章
|
4月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
65 0
|
4月前
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
218 0
|
4月前
|
存储 分布式计算 数据处理
bigdata-35-Spark工作原理
bigdata-35-Spark工作原理
35 0
|
3月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
28 0
|
4月前
|
SQL 存储 分布式计算
spark执行sql的原理是什么
spark执行sql的原理是什么
80 1
|
4月前
|
分布式计算 算法 数据挖掘
Spark中的图计算库GraphX是什么?请解释其作用和常用操作。
Spark中的图计算库GraphX是什么?请解释其作用和常用操作。
61 1
|
SQL 分布式计算 Java
五、【计算】Spark原理与实践(下) | 青训营笔记
五、【计算】Spark原理与实践(下) | 青训营笔记
五、【计算】Spark原理与实践(下) | 青训营笔记
|
SQL 分布式计算 NoSQL
Spark Connector Reader 原理与实践
本文主要讲述如何利用 Spark Connector 进行 Nebula Graph 数据的读取。
727 0
|
SQL 分布式计算 Spark
钉钉群直播【Spark Relational Cache 原理和实践】
主要介绍Relational Cache/物化视图的历史和背景,以及EMR Spark基于Relational Cache加速Spark查询的技术方案,及如何通过基于Relational Cache的数据预计算和预组织,使用Spark支持亚秒级响应的交互式分析使用场景。
|
2月前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
106 1
Spark快速大数据分析PDF下载读书分享推荐