Spark 原理_运行过程_总结和流程 | 学习笔记

简介: 快速学习 Spark 原理_运行过程_总结和流程

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_运行过程_总结和流程】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/689/detail/12028


Spark 原理_运行过程_总结和流程


内容简介

一、流程图

二、步骤

 

前面讲解了一堆概念,接下来要讲解如何运行这一流程,我们了解完概念后,对流程进行梳理一遍,有哪些组件参与、那些组件是干什么的、之间如何进行交互。

 

一、流程图

打开笔记,右键点击在新标签页中代开图篇,如下:

image.png

 

二、步骤

1..将一个 wordcount.Scala 提交给 driver(负责运行程序的 map方法)

2.运行完后,会生成逻辑执行图,再把逻辑执行图调用 action,传给 DAGscheduler

3.DAGscheduler 会生成 stages,划分为阶段,每个阶段都会对应 taskset

4.之后会请求 taskscheduler 帮忙调度这些 taskset

5.Taskscheduer 会先去询问集群中还有多少资源,资源通过 scheduler backend 返回 taskscheduler

6.taskscheduler 会想好要调度到哪里,先调度 shufflemapstage(中间过程的 stage),执行 taskset

7.后调度到 result stage,最后执行结果,将结果发给 driver

//中间两个大的组件:DAGschedulerTaskscheduler

//stage 的两个子类:shufflemapstageresultstage

相关文章
|
3月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
42 0
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
|
3月前
|
存储 分布式计算 数据处理
bigdata-35-Spark工作原理
bigdata-35-Spark工作原理
31 0
|
20天前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
2月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
24 0
|
2月前
|
分布式计算 DataWorks 网络安全
DataWorks操作报错合集之还未运行,spark节点一直报错,如何解决
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
3月前
|
SQL 存储 分布式计算
spark执行sql的原理是什么
spark执行sql的原理是什么
70 1
|
3月前
|
分布式计算 监控 Java
Spark学习---day06、Spark内核(源码提交流程、任务执行)
Spark学习---day06、Spark内核(源码提交流程、任务执行)
|
3月前
|
机器学习/深度学习 分布式计算 算法
Spark MLlib简介与机器学习流程
Spark MLlib简介与机器学习流程
|
3月前
|
存储 分布式计算 监控
Spark作业的调度与执行流程
Spark作业的调度与执行流程