开发者学堂课程【大数据实时计算框架 Spark 快速入门:Spark 源码初步剖析_1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/100/detail/1668
Spark 源码初步剖析_1
内容介绍:
一、术语解释
二、Cluster Overview
一、术语解释
Application 基于 Spark 的用用户程序,包含了 drve 程序和集群上的 executor Driver Program 运行行 main 函数并且新建 SparkContext 的程序,Cluster Manager 在集群上获取资源的外部服务(例如 standalone, Mesos, Yarn)
WorkerNode 集群中任何可以运行行应用用代码的节点
Executor 是在二一个 worker node 上为某应用用启动的一个进程,该进程负责运行行任务,并且负责将数据存在内存或者磁盘上。每个应用用都有各自自独立立的 executors
Task 被送到某个 executor 上的工工作单元
Job 包含很多任务的并行行计算,可以看做和 Spark 的 action 对应
Stage- 个 b 会被拆分很多组任务,每组任务被称为
Stage (就像 Mapreduce 分 map 任务和 reduce 任务一一样)
为什么窄依赖不能再切割:
因为窄依赖再被切割,Task 就不是这条 Pipeline 线。
二、Cluster Overview
Spark Content 初始化上下文
从应用程序角度划分从集群角度划分:
Application (maln-sc-Driver ) Cluster
action
Jobs worker node
wide
Stages Executors 进
Pipeline
Tasks Threads 线