大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day20】—

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day20】——Spark7

2023-12-25 155

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day20】——Spark7

停🤚
不要往下滑了，
默默想5min，
看看这5道面试题你都会吗？

面试题 01、Spark on Mesos中，什么是的粗粒度分配，什么是细粒度分配，各自的优点和缺点是什么？
面试题02、driver的功能是什么？
面试题 03、Spark技术栈有哪些组件，每个组件都有什么功能，适合什么应用场景？
面试题04、Spark中Worker的主要工作是什么？
面试题05、Mapreduce和Spark的都是并行计算，那么他们有什么相同和区别？

以下答案仅供参考：

面试题 01、为什么要进行序列化序列化？

可以减少数据的体积，减少存储空间，高效存储和传输数据，不好的是使用的时候要反序列化，非常消耗CPU。配，用完了就立即回收资源，启动会麻烦一点，启动一次分配一次，会比较麻烦。

面试题02、Yarn中的container是由谁负责销毁的，在Hadoop Mapreduce中container可以复用么？

ApplicationMaster负责销毁，在Hadoop Mapreduce不可以复用，在spark on yarn程序container可以复用。

面试题03、不启动Spark集群Master和work服务，可不可以运行Spark程序？

可以，只要资源管理器第三方管理就可以，如由yarn管理，spark集群不启动也可以使用spark；spark集群启动的是work和master，这个其实就是资源管理框架， yarn中的resourceManager相当于master，NodeManager相当于worker，做计算是Executor，和spark集群的work和manager可以没关系，归根接底还是JVM的运行，只要所在的JVM上安装了spark就可以。

面试题04、 RDD通过Linage（记录数据更新）的方式为何很高效？

1）lazy记录了数据的来源，RDD是不可变的，且是lazy级别的，且RDD之间构成了链条，lazy是弹性的基石。由于RDD不可变，所以每次操作就产生新的rdd，不存在全局修改的问题，控制难度下降，所有有计算链条将复杂计算链条存储下来，计算的时候从后往前回溯 900步是上一个stage的结束，要么就checkpoint。

2）记录原数据，是每次修改都记录，代价很大如果修改一个集合，代价就很小，官方说rdd是粗粒度的操作，是为了效率，为了简化，每次都是操作数据集合，写或者修改操作，都是基于集合的rdd的写操作是粗粒度的，rdd的读操作既可以是粗粒度的也可以是细粒度，读可以读其中的一条条的记录。

3）简化复杂度，是高效率的一方面，写的粗粒度限制了使用场景如网络爬虫，现实世界中，大多数写是粗粒度的场景。

面试题05、spark on yarn Cluster 模式下，ApplicationMaster和driver是在同一个进程么？

是，driver 位于ApplicationMaster进程中。该进程负责申请资源，还负责监控程序、资源的动态情况。

总结

今天我们复习了面试中常考的Spark相关的五个问题，你做到心中有数了么？

其实做这个专栏我也有私心，就是希望借助每天写一篇面试题，督促自己学习，以免在面试期间尴尬！平时不流汗,面试多流泪!

对了，如果你的朋友也在准备面试，请将这个系列扔给他，

好了，今天就到这里，学废了的同学，记得在评论区留言：打卡。给同学们以激励。

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day20】——Spark7

面试题 01、为什么要进行序列化序列化？

面试题02、Yarn中的container是由谁负责销毁的，在Hadoop Mapreduce中container可以复用么？

面试题03、不启动Spark集群Master和work服务，可不可以运行Spark程序？

面试题04、 RDD通过Linage（记录数据更新）的方式为何很高效？

面试题05、spark on yarn Cluster 模式下，ApplicationMaster和driver是在同一个进程么？

总结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day20】——Spark7

面试题 01、为什么要进行序列化序列化？

面试题02、Yarn中的container是由谁负责销毁的，在Hadoop Mapreduce中container可以复用么？

面试题03、不启动Spark集群Master和work服务，可不可以运行Spark程序？

面试题04、 RDD通过Linage（记录数据更新）的方式为何很高效？

面试题05、spark on yarn Cluster 模式下，ApplicationMaster和driver是在同一个进程么？

总结

热门文章

最新文章

相关课程

相关电子书