Spark面试题(二)
Spark有哪两种算子?、Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子、如何从Kafka中获取数据、RDD创建有哪几种方式?、Spark并行度怎么设置比较合、Spark如何处理不能被序列化的对、collect功能是什么,其底层是怎么实现的、为什么Spark Application在没有获得足够的资源,job就开始执行了,可能会导致什么什么问题发生、map与flatMap的区别、Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么、driver的功能是什么等等以下有答案。