Spark名词解释及关系-阿里云开发者社区

Spark名词解释及关系

2017-08-01 1401

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

随着对spark的业务更深入，对spark的了解也越多，然而目前还处于知道的越多，不知道的更多阶段，当然这也是成长最快的阶段。这篇文章用作总结最近收集及理解的spark相关概念及其关系。

名词

driver

driver物理层面是指输入提交spark命令的启动程序，逻辑层面是负责调度spark运行流程包括向master申请资源，拆解任务，代码层面就是sparkcontext。

worker

worker指可以运行的物理节点。

executor

executor指执行spark任务的处理程序，对java而言就是拥有一个jvm的进程。一个worker节点可以运行多个executor，只要有足够的资源。

job

job是指一次action，rdd(rdd在这里就不解释了)操作分成两大类型，一类是transform，一类是action，当涉及到action的时候，spark就会把上次action之后到本次action的所有rdd操作用一个job完成。

stage

stage是指一次shuffle，rdd在操作的时候分为宽依赖(shuffle dependency)和窄依赖(narraw dependency)，如下图所示。而宽依赖就是指shuffle。

应某人要求再解释一下什么是窄依赖，就是父rdd的每个分区都只作用在一个子rdd的分区中，原话是这么说的 each partition of the parent RDD is used by at most one partition of the child RDD。

task

task是spark的最小执行单位，一般而言执行一个partition的操作就是一个task，关于partition的概念，这里稍微解释一下。

spark的默认分区数是2，并且最小分区也是2，改变分区数的方式有很多，大概有三个阶段

1.启动阶段，通过 spark.default.parallelism 来初始化默认分区数

2.生成rdd阶段，可通过参数配置

3.rdd操作阶段，默认继承父rdd的partition数，最终结果受shuffle操作和非shuffle操作的影响，不同操作的结果partition数不同

名词关系

物理关系

官网给出的spark运行架构图

逻辑关系

下图是总结的逻辑关系图，如果有不对之处，还望提醒。

本文作者：小数点

来源：51CTO

Spark名词解释及关系

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Spark名词解释及关系

热门文章

最新文章

相关课程

相关电子书