Spark面试题整理(三)

简介: 为什么要进行序列化序列化,Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么等问题该怎么解决呢,以下有答案。

1、为什么要进行序列化序列化?


可以减少数据的体积,减少存储空间,高效存储和传输数据,不好的是使用的时候要反序列化,非常消耗CPU。


2、Yarn中的container是由谁负责销毁的,在Hadoop Mapreduce中container可以复用么?


ApplicationMaster负责销毁,在Hadoop Mapreduce不可以复用,在spark on yarn程序container可以复用。


3、提交任务时,如何指定Spark Application的运行模式?


1)cluster模式:./spark-submit --class xx.xx.xx --master yarn --deploy-mode cluster xx.jar


2)client模式:./spark-submit --class xx.xx.xx --master yarn --deploy-mode client xx.jar


4、不启动Spark集群Master和work服务,可不可以运行Spark程序?


可以,只要资源管理器第三方管理就可以,如由yarn管理,spark集群不启动也可以使用spark;spark集群启动的是work和master,这个其实就是资源管理框架,

yarn中的resourceManager相当于master,NodeManager相当于worker,做计算是Executor,和spark集群的work和manager可以没关系,归根接底还是JVM的运行,

只要所在的JVM上安装了spark就可以。


5、spark on yarn Cluster 模式下,ApplicationMaster和driver是在同一个进程么?


是,driver 位于ApplicationMaster进程中。该进程负责申请资源,还负责监控程序、资源的动态情况。


6、运行在yarn中Application有几种类型的container?


1)运行ApplicationMaster的Container:这是由ResourceManager(向内部的资源调度器)申请和启动的,用户提交应用程序时,

可指定唯一的ApplicationMaster所需的资源;


2)运行各类任务的Container:这是由ApplicationMaster向ResourceManager申请的,并由ApplicationMaster与NodeManager通信以启动之。


7、Executor启动时,资源通过哪几个参数指定?


1)num-executors是executor的数量


2)executor-memory 是每个executor使用的内存


3)executor-cores 是每个executor分配的CPU


8、为什么会产生yarn,解决了什么问题,有什么优势?


1)为什么产生yarn,针对MRV1的各种缺陷提出来的资源管理框架


2)解决了什么问题,有什么优势


9、一个task的map数量由谁来决定?


一般情况下,在输入源是文件的时候,一个task的map数量由splitSize来决定的

那么splitSize是由以下几个来决定的

goalSize = totalSize / mapred.map.tasks

inSize = max {mapred.min.split.size, minSplitSize}

splitSize = max (minSize, min(goalSize, dfs.block.size))

一个task的reduce数量,由partition决定。


10、列出你所知道的调度器,说明其工作原理?


1)FiFo schedular 默认的调度器 先进先出


2)Capacity schedular 计算能力调度器 选择占用内存小 优先级高的


3)Fair schedular 调度器 公平调度器 所有job 占用相同资源


11、导致Executor产生FULL gc 的原因,可能导致什么问题?


可能导致Executor僵死问题,海量数据的shuffle和数据倾斜等都可能导致full gc。以

shuffle为例,伴随着大量的Shuffle写操作,JVM的新生代不断GC,

Eden Space写满了就往Survivor Space写,同时超过一定大小的数据会直接写到老生代,当新生代写满了之后,也会把老的数据搞到老生代,如果老生代空间不足了,

就触发FULL GC,还是空间不够,那就OOM错误了,此时线程被Blocked,导致整个Executor处理数据的进程被卡住。


12、Spark累加器有哪些特点?


1)累加器在全局唯一的,只增不减,记录全局集群的唯一状态;


2)在exe中修改它,在driver读取;


3)executor级别共享的,广播变量是task级别的共享两个application不可以共享累加器,但是同一个app不同的job可以共享。


13、spark hashParitioner的弊端是什么?


HashPartitioner分区的原理很简单,对于给定的key,计算其hashCode,并除于分区的个数取余,如果余数小于0,则用余数+分区的个数,最后返回的值就是

这个key所属的分区ID;弊端是数据不均匀,容易导致数据倾斜,极端情况下某几个分区会拥有rdd的所有数据。


14、RangePartitioner分区的原理?


RangePartitioner分区则尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,也就是说一个分区中的元素肯定都是比另一个分区内的元素小

或者大;但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。其原理是水塘抽样。


15、rangePartioner分区器特点?


rangePartioner尽量保证每个分区中数据量的均匀,而且分区与分区之间是有序的,一个分区中的元素肯定都是比另一个分区内的元素小或者大;

但是分区内的元素是不能保证顺序的。简单的说就是将一定范围内的数映射到某一个分区内。RangePartitioner作用:将一定范围内的数映射到某一个分区内,

在实现中,分界的算法尤为重要。算法对应的函数是rangeBounds。


16、如何理解Standalone模式下,Spark资源分配是粗粒度的?


spark默认情况下资源分配是粗粒度的,也就是说程序在提交时就分配好资源,后面执行的时候使用分配好的资源,除非资源出现了故障才会重新分配。

比如Spark shell启动,已提交,一注册,哪怕没有任务,worker都会分配资源给executor。


17、union操作是产生宽依赖还是窄依赖?


产生窄依赖。


18、窄依赖父RDD的partition和子RDD的parition是不是都是一对一的关系?


不一定,除了一对一的窄依赖,还包含一对固定个数的窄依赖(就是对父RDD的依赖的Partition的数量不会随着RDD数量规模的改变而改变),

比如join操作的每个partiion仅仅和已知的partition进行join,这个join操作是窄依赖,依赖固定数量的父rdd,因为是确定的partition关系。


19、Hadoop中,Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子?


相当于spark中的map算子和reduceByKey算子,当然还是有点区别的,MR会自动进行排序的,spark要看你用的是什么partitioner。


20、什么是shuffle,以及为什么需要shuffle?


shuffle中文翻译为洗牌,需要shuffle的原因是:某种具有共同特征的数据汇聚到一个计算节点上进行计算。

目录
相关文章
|
存储 缓存 分布式计算
【大数据面试题】(五)Spark 相关面试题总结
【大数据面试题】(五)Spark 相关面试题总结
259 0
【大数据面试题】(五)Spark 相关面试题总结
|
SQL 机器学习/深度学习 分布式计算
这......Spark面试题完全不会啊!
资深Spark工程师一线大厂面试题,错过了就是错过了,关注公众号:857Hub
481 1
|
存储 消息中间件 缓存
大数据知识面试题-Spark
在cluster模式下,Driver运行在YARN集群的某个节点上,使用的是没有经过配置的默认设置,PermGen永久代大小为82MB。运行报出OOM错误。
大数据知识面试题-Spark
|
存储 SQL 缓存
Spark面试题
spark的有几种部署模式,每种模式特点、Spark为什么比mapreduce快、简单说一下hadoop和spark的shuffle相同和差异、spark工作机制、spark的优化怎么做、数据本地性是在哪个环节确定的、RDD的弹性表现在哪几点、RDD有哪些缺陷、Spark的shuffle过程、 Spark的数据本地性有哪几种、Spark为什么要持久化,一般什么场景下要进行persist操作。
1240 0
Spark面试题
|
SQL 分布式计算 资源调度
spark 几道面试题
spark 几道面试题
|
存储 SQL 分布式计算
Spark面试题(四)
Spark中的HashShufle的相关方面的问题及解析。
222 0
Spark面试题(四)
|
SQL 消息中间件 分布式计算
Spark面试题(五)——数据倾斜调优
数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。
286 0
Spark面试题(五)——数据倾斜调优
|
缓存 分布式计算 资源调度
Spark面试题(六)——Spark资源调优
Spark资源调优的方法。
268 0
Spark面试题(六)——Spark资源调优
|
分布式计算 Java Spark
|
SQL 存储 分布式计算
【最全的大数据面试系列】Spark面试题大全(二)
【最全的大数据面试系列】Spark面试题大全(二)
225 0