Spark 原理_总体介绍_集群环境 | 学习笔记

简介: 快速学习 Spark 原理_总体介绍_集群环境

开发者学堂课程【大数据 Spark 2020版(知识精讲与实战演练)第三阶段Spark 原理_总体介绍_集群环境】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/689/detail/12006


Spark 原理_总体介绍_集群环境


上一节小案例直接运行,如果将案例运行到生产环境下,案例需打包成架包提交到集群中去运行,要了解架包如何运行需要先了解集群环境如何运行。

进入笔记,如图所示:

image.png

因为集群中的每台机器都运行着 spark 程序,因而称为 spark 集群。Spark 集群如何运行程序?

假设 node 01master 的原因是什么?假设 Note 02worker 的原因是什么?因为 Note 01中运行着 master deamon,在 Note 02中运行 work deamon,因而称 node 01MosterNode 02worker

deamon 可以理解为守护进程的意义,进程是为了管理某些东西,管理机器或者某些资源。Master deamon 运行在node 01,意为管理 Node 01这一台机器,管理 master 的职责。worker deamon 运行在 Note 02中,意为管理Node 02这台机器,用于和 master 进行通信。

例如打包一个 spark 程序,需要把程序提交给 master 进行运行,此意味着 master 调度程序的运行,程序最终在executor 中进行,worker 负责和 master 进行交互,Master 将调度的任务赋予 worker,而 worker master 认领任务,Worker deamon 负责去创建 executor。当程序运行完时,Worker deamon 负责去关闭 executor 程序。

以上为 master deamon worker deamon 的作用。一个用于管理 master 节点,一个管理 worker 节点。一个用于分发任务,而另一个接收任务,运行,启动,管理 executor

executor 运行在容器中,称为 executor backendexecutor 是一个进程,需要依托于外部的环境,所以需要先运行executor backendWorker damon 通过 executor backend 管理 executor,事实上,一个 executor backend 只负责一个 executorWorker 通过 executor backend 管理 executor

spark 集群中,有一个重要的角色: driver,是整个要运行 spark 集群 application 的驱动节点。

一个架包提交,会有一个 Scala class,通过 driver 运行 applicationexecutor 负责运行方法,准备好整个环境,executor driver 进行通信,负责整个任务的具体执行,运行结束,结果汇总给 driver,并呈现。action 操作最终获取结果,是将结果存放在 driver 中。

集群部署情况:

master 节点运行 master 的守护进程,是 master deamon,进行管理 master

worker 节点中运行 worker,是 worker deamon,进行管理 worker 节点。和 Master 同时认领任务,开启executor backend,通过 executor backend 管理 executorDriver 也运行在 worker 中,是 spark application 的调度者,驱动程序,最终结果获取者。

相关文章
|
3月前
|
移动开发 分布式计算 Spark
Spark的几种去重的原理分析
Spark的几种去重的原理分析
39 0
|
3月前
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
|
3月前
|
存储 分布式计算 数据处理
bigdata-35-Spark工作原理
bigdata-35-Spark工作原理
31 0
|
3月前
|
分布式计算 资源调度 监控
【Spark】 Spark的基础环境 Day03
【Spark】 Spark的基础环境 Day03
43 0
【Spark】 Spark的基础环境 Day03
|
20天前
|
SQL 弹性计算 资源调度
云服务器 ECS产品使用问题之bin/spark-sql --master yarn如何进行集群模式运行
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
2月前
|
机器学习/深度学习 分布式计算 API
技术好文:Spark机器学习笔记一
技术好文:Spark机器学习笔记一
24 0
|
2月前
|
分布式计算 Shell Linux
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
Spark-集群安装、部署、启动、测试(1.6.3)稳定版
43 0
|
3月前
|
SQL 存储 分布式计算
spark执行sql的原理是什么
spark执行sql的原理是什么
70 1
|
3月前
|
分布式计算 数据处理 Scala
Spark 集群和 Scala 编程语言的关系
Spark 集群和 Scala 编程语言的关系
|
SQL 分布式计算 Java
五、【计算】Spark原理与实践(下) | 青训营笔记
五、【计算】Spark原理与实践(下) | 青训营笔记
五、【计算】Spark原理与实践(下) | 青训营笔记