Spark 原理_总体介绍_物理执行图 | 学习笔记

简介: 快速学习 Spark 原理_总体介绍_物理执行图

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_总体介绍_物理执行图】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12008


Spark 原理_总体介绍_物理执行图


逻辑执行图是 RDD 链条,描述的是数据如何处理,步骤。

RDD 表示数据或者数据如何计算得来,并不是真正的运行单位,为此需要生成物理执行图,通过物理任务,执行 RDD 的链条,逻辑并不真实存在,在物理中执行 RDD 成为物理执行图。整体关系为逻辑执行图表达了数据如何计算,通过物理执行图表达数据如何计算,然后物理执行图放入集群中,这就是整个链条。

image.png

物理执行图是放在同一个任务当中的。

物理执行图是分阶段的,三个分区可以放在一个场所中,但后一分区依赖前一分区的所有分区,中间是 shuffle 操作,因而中间需要分开,即后一部分需等前一部分结束再运行,此即为物理执行图。

横向分区成为 task,整个阶段称为 stage,第二分区输出的结果传给 driver,,将数据展示给用户。

总结:

物理执行图描述 RDD 放在集群中去运行。其实整个 spark 原理所研的东西就是究集群是什么,逻辑执行图和物理执行图是什么,如何去运行物理执行图四个问题。

相关文章
|
6月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
188 0
|
6月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
144 0
|
6月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
76 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
10月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
71 0
|
11月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
202 0
|
11月前
|
SQL 存储 分布式计算
spark执行sql的原理是什么
spark执行sql的原理是什么
203 1
|
1月前
|
存储 分布式计算 Hadoop
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
从“笨重大象”到“敏捷火花”:Hadoop与Spark的大数据技术进化之路
161 79
|
5月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
291 2
|
5月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
365 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
5月前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第26天】本文详细探讨了Hadoop与Spark在大数据处理中的协同作用,通过具体案例展示了两者的最佳实践。Hadoop的HDFS和MapReduce负责数据存储和预处理,确保高可靠性和容错性;Spark则凭借其高性能和丰富的API,进行深度分析和机器学习,实现高效的批处理和实时处理。
249 1