【大数据分布并行处理】单元测试(八)

简介: 【大数据分布并行处理】单元测试(八)


第八单元

单选题

1.下面对Spark描述不正确的是:

A. 美国加州伯克利大学AMP实验室开发

B. 基于内存的大数据并行计算框架

C. Apache软件基金会最重要的三大分布式计算系统开源项目

D. 2014年加入Apache软件基金孵化器项目

正确答案: D

2.下面哪个语言不支持Spark编程?

A. Scala

B. python

C. Java

D. C++

正确答案: D

  1. 关于Spark生态系统描述不正确的是:
    A. Spark生态系统已成为BDAS的重要组成部分
    B. Spark可以部署在YARN之上,提供一站式大数据解决方案
    C. Spark Core 提供磁盘计算,不能提供内存计算
    D. Spark所提供的的生态系统可以应对批处理、交互式查询和流数据处理这三种应用场景
    正确答案: C
  2. 相比于Hadoop MapReduce,哪个不是Spark具有的优点?
    A. Spark对于迭代运算效率更高
    B. Spark基于DAG的任务调度执行机制
    C. Spark将中间结果存放到磁盘中,MapReduce将中间结果存储在内存中
    D. Spark不限于map和reduce操作,还提供了多种数据集操作类型
    正确答案: C
  3. 下列哪个不属于Spark集群部署模式?
    A. standalone
    B. Yarn
    C. Mesos
    D. local
    正确答案: D
  4. 下列哪个不是Spark生态系统包含的组件?
    A. Spark Streaming
    B. GraphX
    C. MLlib
    D. mahout
    正确答案: D
  5. 下面关于Spark运行架构描述错误的是?
    A. 每个Application都有自己专属的Executor进程,并且该进程在Application运行期间一直驻留
    B. Spark运行过程与资源管理器有关
    C. Executor进程以多线程的方式运行Task
    D. Task采用了数据本地性和推测执行等优化机制
    正确答案: B
  6. 关于Spark RDD的描述,不正确的是?
    A. 它是集群节点上不可变、已分区的集合对象
    B. 存储于一台机器中
    C. 必须是可序列化的,在内存不足时候可以自动降级为磁盘存储
    D. 失败了自动重建,对丢失部分数据分区只需要根据它的“血缘”关系重新计算
    正确答案: B
  7. 下面哪个不是 RDD 的特点?
    A. 可分区
    B. 可序列化
    C. 可修改
    D. 可持久化
    正确答案: C
  8. 下面哪个不是转换算子?
    A. collect()
    B. map(func)
    C. filter(func)
    D. flatMap(func)
    正确答案: A
  9. 以下哪个不是Spark中executor的作用?
    A. 保存计算的RDD分区数据
    B. 向Driver反向注册
    C. 接受Driver端发送来的任务Task
    D. 做资源调度任务
    正确答案: D
  10. Stage 的 Task 的数量由什么决定?
    A. Partition
    B. Job
    C. Stage
    D. TaskScheduler
    正确答案: A
  11. 下面哪个操作是窄依赖?
    A. join
    B. filter
    C. group
    D. sort
    正确答案: B

填空题

  1. Spark Core 的数据抽象是______。
    正确答案:RDD
  2. Scala有2种类型的声明,一种是可变的,一种是不可变的,可变的变量,使用关键词____________声明。
    正确答案:var
  3. ____________是一个常用机器学习算法库,算法被实现为对RDD的Spark操作。
    正确答案:MLlib

判断题

  1. 一个RDD就是一个分布式对象集合, RDD的数据只能存放在内存中的。
    正确答案: 错误
  2. flatMap(func)算子表现为一个输入元素映射一个输出结果。
    正确答案: 错误
  3. Stage是Job的基本调度单位,一个Job会分为多组Task,每组Task被称为Stage。
    正确答案: 正确
  4. 使用命令“:quit”可以退出Spark shell。
    正确答案: 正确
  5. Spark是进程级并行,而MapReduce是线程级并行。
    正确答案: 错误
  6. reduceByKey(func)算子应用于(K,V)键值对的数据集时,返回一个新的(K, Iterable)形式的数据集。
    正确答案: 错误
  7. 宽依赖则表现为存在一个父RDD的多个分区对应一个子RDD的一个分区。
    正确答案: 错误
  8. Spark是基于内存的大数据并行计算框架,具有运行模式多样性,运行速度快,通用性,容易使用等特点。
    正确答案: 正确
  9. 一个Application由一个Driver和若干个Job构成,一个Job由多个Stage构成。
    正确答案: 正确
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2天前
|
分布式计算 大数据 Hadoop
如何对大数据应用进行性能测试
如何对大数据应用进行性能测试
|
2天前
|
SQL 分布式计算 HIVE
【大数据分布并行处理】单元测试(九)
【大数据分布并行处理】单元测试(九)
69 0
|
2天前
|
Oracle 关系型数据库 大数据
助力工业物联网,工业大数据之服务域:Shell调度测试【三十三】
助力工业物联网,工业大数据之服务域:Shell调度测试【三十三】
23 1
|
2天前
|
SQL Oracle 关系型数据库
助力工业物联网,工业大数据之ODS层构建:申明分区代码及测试【十】
助力工业物联网,工业大数据之ODS层构建:申明分区代码及测试【十】
48 0
|
2天前
|
存储 分布式计算 大数据
首批!阿里云MaxCompute完成中国信通院基于无服务器架构大数据平台测试
近日,阿里云计算有限公司MaxCompute产品顺利完成中国信通院首批无服务器架构(Serverless)大数据平台测试。
231 0
|
2天前
|
分布式计算 监控 MaxCompute
在MaxCompute中,每个M实例可以并行处理多个文件
在MaxCompute中,每个M实例可以并行处理多个文件
27 3
|
SQL 分布式计算 运维
【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append)测试文档
上一篇文章介绍了sqoop全量同步数据到hive, 本片文章将通过实验详细介绍如何增量同步数据到hive,以及sqoop job与crontab定时结合无密码登录的增量同步实现方法。
【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append)测试文档
|
2天前
|
网络协议 安全 测试技术
性能工具之emqtt-bench BenchMark 测试示例
【4月更文挑战第19天】在前面两篇文章中介绍了emqtt-bench工具和MQTT的入门压测,本文示例 emqtt_bench 对 MQTT Broker 做 Beachmark 测试,让大家对 MQTT消息中间 BenchMark 测试有个整体了解,方便平常在压测工作查阅。
131 7
性能工具之emqtt-bench BenchMark 测试示例
|
2天前
|
机器学习/深度学习 数据采集 人工智能
【专栏】AI在软件测试中的应用,如自动执行测试用例、识别缺陷和优化测试设计
【4月更文挑战第27天】本文探讨了AI在软件测试中的应用,如自动执行测试用例、识别缺陷和优化测试设计。AI辅助工具利用机器学习、自然语言处理和图像识别提高效率,但面临数据质量、模型解释性、维护更新及安全性挑战。未来,AI将更注重用户体验,提升透明度,并在保护隐私的同时,通过联邦学习等技术共享知识。AI在软件测试领域的前景广阔,但需解决现有挑战。
|
2天前
|
测试技术
如何管理测试用例?测试用例有什么管理工具?YesDev
该文档介绍了测试用例和测试用例库的管理。测试用例是描述软件测试方案的详细步骤,包括测试目标、环境、输入、步骤和预期结果。测试用例库用于组织和管理这些用例,强调简洁性、完整性和可维护性。管理者可以创建、删除、重命名用例库,搜索和管理用例,以及通过层级目录结构来组织用例。此外,还支持通过Excel导入和导出测试用例,以及使用脑图查看用例关系。后台管理允许配置全局别名,如用例状态、优先级和执行结果。

热门文章

最新文章