第八单元
单选题
1.下面对Spark描述不正确的是:
A. 美国加州伯克利大学AMP实验室开发
B. 基于内存的大数据并行计算框架
C. Apache软件基金会最重要的三大分布式计算系统开源项目
D. 2014年加入Apache软件基金孵化器项目
正确答案: D
2.下面哪个语言不支持Spark编程?
A. Scala
B. python
C. Java
D. C++
正确答案: D
- 关于Spark生态系统描述不正确的是:
A. Spark生态系统已成为BDAS的重要组成部分
B. Spark可以部署在YARN之上,提供一站式大数据解决方案
C. Spark Core 提供磁盘计算,不能提供内存计算
D. Spark所提供的的生态系统可以应对批处理、交互式查询和流数据处理这三种应用场景
正确答案: C - 相比于Hadoop MapReduce,哪个不是Spark具有的优点?
A. Spark对于迭代运算效率更高
B. Spark基于DAG的任务调度执行机制
C. Spark将中间结果存放到磁盘中,MapReduce将中间结果存储在内存中
D. Spark不限于map和reduce操作,还提供了多种数据集操作类型
正确答案: C - 下列哪个不属于Spark集群部署模式?
A. standalone
B. Yarn
C. Mesos
D. local
正确答案: D - 下列哪个不是Spark生态系统包含的组件?
A. Spark Streaming
B. GraphX
C. MLlib
D. mahout
正确答案: D - 下面关于Spark运行架构描述错误的是?
A. 每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留
B. Spark运行过程与资源管理器有关
C. Executor进程以多线程的方式运行Task
D. Task采用了数据本地性和推测执行等优化机制
正确答案: B - 关于Spark RDD的描述,不正确的是?
A. 它是集群节点上不可变、已分区的集合对象
B. 存储于一台机器中
C. 必须是可序列化的,在内存不足时候可以自动降级为磁盘存储
D. 失败了自动重建,对丢失部分数据分区只需要根据它的“血缘”关系重新计算
正确答案: B - 下面哪个不是 RDD 的特点?
A. 可分区
B. 可序列化
C. 可修改
D. 可持久化
正确答案: C - 下面哪个不是转换算子?
A. collect()
B. map(func)
C. filter(func)
D. flatMap(func)
正确答案: A - 以下哪个不是Spark中executor的作用?
A. 保存计算的RDD分区数据
B. 向Driver反向注册
C. 接受Driver端发送来的任务Task
D. 做资源调度任务
正确答案: D - Stage 的 Task 的数量由什么决定?
A. Partition
B. Job
C. Stage
D. TaskScheduler
正确答案: A - 下面哪个操作是窄依赖?
A. join
B. filter
C. group
D. sort
正确答案: B
填空题
- Spark Core 的数据抽象是______。
正确答案:RDD - Scala有2种类型的声明,一种是可变的,一种是不可变的,可变的变量,使用关键词____________声明。
正确答案:var - ____________是一个常用机器学习算法库,算法被实现为对RDD的Spark操作。
正确答案:MLlib
判断题
- 一个RDD就是一个分布式对象集合, RDD的数据只能存放在内存中的。
正确答案: 错误 - flatMap(func)算子表现为一个输入元素映射一个输出结果。
正确答案: 错误 - Stage是Job的基本调度单位,一个Job会分为多组Task,每组Task被称为Stage。
正确答案: 正确 - 使用命令“:quit”可以退出Spark shell。
正确答案: 正确 - Spark是进程级并行,而MapReduce是线程级并行。
正确答案: 错误 - reduceByKey(func)算子应用于(K,V)键值对的数据集时,返回一个新的(K, Iterable)形式的数据集。
正确答案: 错误 - 宽依赖则表现为存在一个父RDD的多个分区对应一个子RDD的一个分区。
正确答案: 错误 - Spark是基于内存的大数据并行计算框架,具有运行模式多样性,运行速度快,通用性,容易使用等特点。
正确答案: 正确 - 一个Application由一个Driver和若干个Job构成,一个Job由多个Stage构成。
正确答案: 正确