Spark 原理_运行过程_总结和流程 | 学习笔记

简介: 快速学习 Spark 原理_运行过程_总结和流程

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_运行过程_总结和流程】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12028


Spark 原理_运行过程_总结和流程


内容简介

一、流程图

二、步骤

 

前面讲解了一堆概念,接下来要讲解如何运行这一流程,我们了解完概念后,对流程进行梳理一遍,有哪些组件参与、那些组件是干什么的、之间如何进行交互。

 

一、流程图

打开笔记,右键点击在新标签页中代开图篇,如下:

image.png

 

二、步骤

1..将一个 wordcount.Scala 提交给 driver(负责运行程序的 map方法)

2.运行完后,会生成逻辑执行图,再把逻辑执行图调用 action,传给 DAGscheduler

3.DAGscheduler 会生成 stages,划分为阶段,每个阶段都会对应 taskset

4.之后会请求 taskscheduler 帮忙调度这些 taskset

5.Taskscheduer 会先去询问集群中还有多少资源,资源通过 scheduler backend 返回 taskscheduler

6.taskscheduler 会想好要调度到哪里,先调度 shufflemapstage(中间过程的 stage),执行 taskset

7.后调度到 result stage,最后执行结果,将结果发给 driver

//中间两个大的组件:DAGschedulerTaskscheduler

//stage 的两个子类:shufflemapstageresultstage

相关文章
|
7月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
144 0
|
2月前
|
分布式计算 大数据 Java
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
40 1
大数据-86 Spark 集群 WordCount 用 Scala & Java 调用Spark 编译并打包上传运行 梦开始的地方
|
2月前
|
分布式计算 Java 大数据
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
43 0
大数据-92 Spark 集群 SparkRDD 原理 Standalone详解 ShuffleV1V2详解 RDD编程优化
|
2月前
|
消息中间件 分布式计算 Kafka
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
大数据-98 Spark 集群 Spark Streaming 基础概述 架构概念 执行流程 优缺点
49 0
|
2月前
|
SQL 分布式计算 大数据
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(一)
71 0
|
2月前
|
SQL 分布式计算 算法
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
大数据-97 Spark 集群 SparkSQL 原理详细解析 Broadcast Shuffle SQL解析过程(二)
88 0
|
5月前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
6月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
47 0
|
7月前
|
SQL 存储 分布式计算
spark执行sql的原理是什么
spark执行sql的原理是什么
140 1
|
6月前
|
分布式计算 DataWorks 网络安全
DataWorks操作报错合集之还未运行,spark节点一直报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。