【大数据分布并行处理】单元测试(八)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 【大数据分布并行处理】单元测试(八)


第八单元

单选题

1.下面对Spark描述不正确的是:

A. 美国加州伯克利大学AMP实验室开发

B. 基于内存的大数据并行计算框架

C. Apache软件基金会最重要的三大分布式计算系统开源项目

D. 2014年加入Apache软件基金孵化器项目

正确答案: D

2.下面哪个语言不支持Spark编程?

A. Scala

B. python

C. Java

D. C++

正确答案: D

  1. 关于Spark生态系统描述不正确的是:
    A. Spark生态系统已成为BDAS的重要组成部分
    B. Spark可以部署在YARN之上,提供一站式大数据解决方案
    C. Spark Core 提供磁盘计算,不能提供内存计算
    D. Spark所提供的的生态系统可以应对批处理、交互式查询和流数据处理这三种应用场景
    正确答案: C
  2. 相比于Hadoop MapReduce,哪个不是Spark具有的优点?
    A. Spark对于迭代运算效率更高
    B. Spark基于DAG的任务调度执行机制
    C. Spark将中间结果存放到磁盘中,MapReduce将中间结果存储在内存中
    D. Spark不限于map和reduce操作,还提供了多种数据集操作类型
    正确答案: C
  3. 下列哪个不属于Spark集群部署模式?
    A. standalone
    B. Yarn
    C. Mesos
    D. local
    正确答案: D
  4. 下列哪个不是Spark生态系统包含的组件?
    A. Spark Streaming
    B. GraphX
    C. MLlib
    D. mahout
    正确答案: D
  5. 下面关于Spark运行架构描述错误的是?
    A. 每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留
    B. Spark运行过程与资源管理器有关
    C. Executor进程以多线程的方式运行Task
    D. Task采用了数据本地性和推测执行等优化机制
    正确答案: B
  6. 关于Spark RDD的描述,不正确的是?
    A. 它是集群节点上不可变、已分区的集合对象
    B. 存储于一台机器中
    C. 必须是可序列化的,在内存不足时候可以自动降级为磁盘存储
    D. 失败了自动重建,对丢失部分数据分区只需要根据它的“血缘”关系重新计算
    正确答案: B
  7. 下面哪个不是 RDD 的特点?
    A. 可分区
    B. 可序列化
    C. 可修改
    D. 可持久化
    正确答案: C
  8. 下面哪个不是转换算子?
    A. collect()
    B. map(func)
    C. filter(func)
    D. flatMap(func)
    正确答案: A
  9. 以下哪个不是Spark中executor的作用?
    A. 保存计算的RDD分区数据
    B. 向Driver反向注册
    C. 接受Driver端发送来的任务Task
    D. 做资源调度任务
    正确答案: D
  10. Stage 的 Task 的数量由什么决定?
    A. Partition
    B. Job
    C. Stage
    D. TaskScheduler
    正确答案: A
  11. 下面哪个操作是窄依赖?
    A. join
    B. filter
    C. group
    D. sort
    正确答案: B

填空题

  1. Spark Core 的数据抽象是______。
    正确答案:RDD
  2. Scala有2种类型的声明,一种是可变的,一种是不可变的,可变的变量,使用关键词____________声明。
    正确答案:var
  3. ____________是一个常用机器学习算法库,算法被实现为对RDD的Spark操作。
    正确答案:MLlib

判断题

  1. 一个RDD就是一个分布式对象集合, RDD的数据只能存放在内存中的。
    正确答案: 错误
  2. flatMap(func)算子表现为一个输入元素映射一个输出结果。
    正确答案: 错误
  3. Stage是Job的基本调度单位,一个Job会分为多组Task,每组Task被称为Stage。
    正确答案: 正确
  4. 使用命令“:quit”可以退出Spark shell。
    正确答案: 正确
  5. Spark是进程级并行,而MapReduce是线程级并行。
    正确答案: 错误
  6. reduceByKey(func)算子应用于(K,V)键值对的数据集时,返回一个新的(K, Iterable)形式的数据集。
    正确答案: 错误
  7. 宽依赖则表现为存在一个父RDD的多个分区对应一个子RDD的一个分区。
    正确答案: 错误
  8. Spark是基于内存的大数据并行计算框架,具有运行模式多样性,运行速度快,通用性,容易使用等特点。
    正确答案: 正确
  9. 一个Application由一个Driver和若干个Job构成,一个Job由多个Stage构成。
    正确答案: 正确
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
145 0
|
1月前
|
分布式计算 负载均衡 大数据
大数据水平处理并行处理
【11月更文挑战第3天】
38 2
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
72 1
|
2月前
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
50 4
|
2月前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
80 1
|
2月前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
72 1
|
2月前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
87 1
|
2月前
|
存储 大数据 Apache
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
25 0
|
2月前
|
存储 SQL 分布式计算
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
42 0
|
2月前
|
分布式计算 Java 大数据
大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window
大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window
43 0