一、运行架构
1.概念
• Application: 用户基于spark的代码,由一个Driver和多个Executor组成。
• Executor: 在工作节点(如standalone的Worker和yarn的NM)上的进程,可以运行task,也可以将数据保存在内存和磁盘中。每个应用程序都有自己的Executors。
• Task: 最小的工作单元,会被送往executor执行。它也是Stage 的子集,以并行度(分区数)来衡量,分区数是多少,则有多少个task,一个 task 对应一个RDD分区 ,如果数据来自HDFS,一个分区的数据就是一个 split 的数据。
• Job: 一个Job有许许多多的Task,每一个Action操作都会触发一个Job,可以在driver日志中观察到。
• Stage: 是Job的子集,一个job被拆分成许多的Stage,一个Stage包含多个Task。Stage是提交作业的最小单位,Stage之间彼此依赖。Stage回到shuffle会被拆分。可以在driver日志中观察到。
2.运行流程
Spark组件将用户的应用程序分解为内部执行任务并提供执行容器。
- Driver Program (驱动程序)
- Executor
资源管理为Spark组件提供资源管理和调度。
- YARN(通用)
- Standalone(Spark自带)
整体流程
当一个Spark应用被提交时,首先需要为这个应用构建起基本的运行环境,即由任务控制节点(Driver)创建一个SparkContext,由SparkContext负责和资源管理器(Cluster Manager)的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源;
资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着“心跳”发送到资源管理器上;
SparkContext根据RDD的依赖关系构建DAG图,DAG图提交给DAG调度器(DAGScheduler)进行解析,将DAG图分解成多个“阶段”(每个阶段都是一个任务集),并且计算出各个阶段之间的依赖关系,然后把一个个“任务集”提交给底层的任务调度器(TaskScheduler)进行处理;Executor向SparkContext申请任务,任务调度器将任务分发给Executor运行,同时,SparkContext将应用程序代码发放给Executor;
任务在Executor上运行,把执行结果反馈给任务调度器,然后反馈给DAG调度器,运行完毕后写入数据并释放所有资源。
注意事项
二、Spark集群模式
集群模式Cluster Mode:将Spark运行应用在YARN集群或者框架自身集群Standalone,及Apache Mesos集群,启动多个JVM进程运行Task程序。 (http://spark.apache.org/docs/2.4.3)
三、执行组件
Spark核心组件包括RDD、Scheduler、Storage、Shuffle四部分。
1.RDD
RDD是Spark最核心最精髓的部分,spark将所有数据都抽象成RDD。
持久化
2.Scheduler
Scheduler是Spark的调度机制,分为DAGScheduler和TaskScheduler。
3.Storage
Storage模块主要管理缓存后的RDD、shuffle中间结果数据和broadcast数据。
4.Shuffle
Shuffle分为Hash方式和Sort方式,两种方式的shuffle中间数据都写本地盘。
5.与Hadoop的区别
Reduce操作生成的结果,spark是存放在内存中的,MapReduce是写HDFS的。所以用户的操作中涉及到的reduce操作越多,Spark比MapReduce写HDFS的次数就越少,Spark的性能优势就越大。
参考
https://zhuanlan.zhihu.com/p/162713938
教授大数据内存的黄老师的PPT