【大数据分布并行处理】单元测试（八）-阿里云开发者社区

【大数据分布并行处理】单元测试（八）

2024-01-04 221

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 【大数据分布并行处理】单元测试（八）

第八单元

单选题

1.下面对Spark描述不正确的是：

A. 美国加州伯克利大学AMP实验室开发

B. 基于内存的大数据并行计算框架

C. Apache软件基金会最重要的三大分布式计算系统开源项目

D. 2014年加入Apache软件基金孵化器项目

正确答案： D

2.下面哪个语言不支持Spark编程？

A. Scala

B. python

C. Java

D. C++

正确答案： D

关于Spark生态系统描述不正确的是：
A. Spark生态系统已成为BDAS的重要组成部分
B. Spark可以部署在YARN之上，提供一站式大数据解决方案
C. Spark Core 提供磁盘计算，不能提供内存计算
D. Spark所提供的的生态系统可以应对批处理、交互式查询和流数据处理这三种应用场景
正确答案： C
相比于Hadoop MapReduce，哪个不是Spark具有的优点？
A. Spark对于迭代运算效率更高
B. Spark基于DAG的任务调度执行机制
C. Spark将中间结果存放到磁盘中，MapReduce将中间结果存储在内存中
D. Spark不限于map和reduce操作，还提供了多种数据集操作类型
正确答案： C
下列哪个不属于Spark集群部署模式?
A. standalone
B. Yarn
C. Mesos
D. local
正确答案： D
下列哪个不是Spark生态系统包含的组件?
A. Spark Streaming
B. GraphX
C. MLlib
D. mahout
正确答案： D
下面关于Spark运行架构描述错误的是?
A. 每个Application都有自己专属的Executor进程，并且该进程在Application运行期间一直驻留
B. Spark运行过程与资源管理器有关
C. Executor进程以多线程的方式运行Task
D. Task采用了数据本地性和推测执行等优化机制
正确答案： B
关于Spark RDD的描述，不正确的是?
A. 它是集群节点上不可变、已分区的集合对象
B. 存储于一台机器中
C. 必须是可序列化的，在内存不足时候可以自动降级为磁盘存储
D. 失败了自动重建，对丢失部分数据分区只需要根据它的“血缘”关系重新计算
正确答案： B
下面哪个不是 RDD 的特点?
A. 可分区
B. 可序列化
C. 可修改
D. 可持久化
正确答案： C
下面哪个不是转换算子?
A. collect()
B. map(func)
C. filter(func)
D. flatMap(func)
正确答案： A
以下哪个不是Spark中executor的作用?
A. 保存计算的RDD分区数据
B. 向Driver反向注册
C. 接受Driver端发送来的任务Task
D. 做资源调度任务
正确答案： D
Stage 的 Task 的数量由什么决定?
A. Partition
B. Job
C. Stage
D. TaskScheduler
正确答案： A
下面哪个操作是窄依赖?
A. join
B. filter
C. group
D. sort
正确答案： B

填空题

Spark Core 的数据抽象是______。
正确答案：RDD
Scala有2种类型的声明，一种是可变的，一种是不可变的，可变的变量，使用关键词____________声明。
正确答案：var
____________是一个常用机器学习算法库，算法被实现为对RDD的Spark操作。
正确答案：MLlib

判断题

一个RDD就是一个分布式对象集合， RDD的数据只能存放在内存中的。
正确答案：错误
flatMap(func)算子表现为一个输入元素映射一个输出结果。
正确答案：错误
Stage是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage。
正确答案：正确
使用命令“:quit”可以退出Spark shell。
正确答案：正确
Spark是进程级并行，而MapReduce是线程级并行。
正确答案：错误
reduceByKey(func)算子应用于(K,V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集。
正确答案：错误
宽依赖则表现为存在一个父RDD的多个分区对应一个子RDD的一个分区。
正确答案：错误
Spark是基于内存的大数据并行计算框架，具有运行模式多样性，运行速度快，通用性，容易使用等特点。
正确答案：正确
一个Application由一个Driver和若干个Job构成，一个Job由多个Stage构成。
正确答案：正确

【大数据分布并行处理】单元测试（八）

第八单元

单选题

填空题

判断题

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【大数据分布并行处理】单元测试（八）

第八单元

单选题

填空题

判断题

热门文章

最新文章

相关课程

相关电子书