【大数据分布并行处理】单元测试(九)

简介: 【大数据分布并行处理】单元测试(九)


第九单元

单选题

  1. Spark SQL可以处理的数据源都包括哪些:
    A. 数据文件、Hive表
    B. Parquet文件和Hive表
    C. 数据文件、RDD
    D. 数据文件、Hive表、RDD、外部数据库
    正确答案: D
  2. 下列关于 Spark SQL 的描述错误的是?
    A. SqlContext现在只支持SQL语法解析器
    B. Spark SQL 对数据的查询分成了两个分支:SqlContext 和 HiveContext
    C. 在spark-shell 中执行 SQL 语句,需要使用 SqlContext 对象来调用sql()方法
    D. HiveContext仅支持HiveQL语法解析器,不支持 SQL语法解析器
    正确答案: D
  3. 关于DataFrame 描述不正确的是?
    A. 支持KB级到PB级的数据处理
    B. DataFrame是一种不可变的分布式数据集
    C. DataFrame是分布式的列对象的集合
    D. 支持读取多种存储系统的数据及支持多种数据格式:
    正确答案: C
  4. 下面关于Spark Streaming描述错误的是:
    A. Spark Streaming的基本原理是将实时输入数据以时间片为单位进行拆分
    B. Spark Streaming可以整合多种输入数据源,如Kafka,Flume,HDFS,甚至是普通的TCP套接字
    C. Spark Streaming的数据抽象是DataFrame
    D. Spark Streaming的数据抽象是DStream
    正确答案: C
  5. 下列哪个说法是正确的?
    A. Spark SQL的前身是Hive
    B. DataFrame其实就是RDD
    C. HiveContext 继承了SqlContext
    D. HiveContext只支持SQL语法解析器
    正确答案: C
  6. 如何查看DataFrame对象df的前10条记录?
    A. df.show()
    B. df.show(False)
    C. df.collect()
    D. df.show(10)
    正确答案: D
  7. 下面不属于Spark Streaming基本数据源的是?
    A. 文件系统
    B. Kafka
    C. Socket连接
    D. RDD队列流等
    正确答案: B
  8. 关于DataFrame及相关函数说法不正确的是?
    A. DataFrame由SchemaRDD发展而来
    B. createOrReplaceTempView()函数是行动算子
    C. toDF()是Spark中创建DataFrame的一种简单方式。它可以将RDD转换为DataFrame,并自动推断元素的类型和创建列
    D. RDD到DataFrame的转换,需要手动导入一个隐式转换,否则RDD无法转换成DataFrame
    正确答案: B
  9. 下面关于MLlib的说法不正确的是?
    A. MLlib是Spark的机器学习(ML)库
    B. MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等
    C. spark.mllib包含基于DataFrame的原始算法API
    D. MLlib库从1.2版本以后分为两个包:spark.mllib和spark.ml
    正确答案: C
  10. VertexId必须是哪种数据类型?
    A. Long
    B. Int
    C. Double
    D. String
    正确答案: A

多选题

  1. 关于DataFrame的说法正确的是?
    A. DataFrame是Spark SQL提供的最核心的编程抽象
    B. DataFrame直接继承了RDD
    C. DataFrame是一个分布式的Row对象的数据集合
    D. DataFrame实现了RDD的绝大多数功能
    正确答案: ACD
  2. 相比shark,Spark优势有哪些?
    A. Spark SQL摆脱了对Hive的依赖
    B. Spark SQL支持在scala中写SQL
    C. Spark SQL支持Parquet文件的读写,且保留Schema
    D. Spark SQL支持访问Hive,而Shark不支持
    正确答案: ABC
  3. 关于DStream,以下说法正确的是?
    A. DStream代表了持续的数据流
    B. DStream可以通过现有的DStream的高级操作获得
    C. DStream只能通过外部数据源(Kafka、Flume等)来获取
    D. 对DStream的任何操作都会转化成底层的RDDS操作
    正确答案: ABD
  4. 关于Spark Streaming,下列说法正确的是?
    A. Spark Streaming是Spark的核心子框架之一
    B. Spark Streaming具有可伸缩、高吞吐量、容错能力强等特点
    C. Spark Streaming处理的数据源可以来自Kafka
    D. Spark Streaming不能和Spark SQL、Mllib、GraphX无缝集成
    正确答案: ABC
  5. 使用Spark Streaming,一般需要哪几个步骤?
    A. 创建StreamingContext 对象
    B. 创建InputStream
    C. 操作DStream
    D. 启动Spark Streaming
    正确答案: ABCD

填空题

  1. Spark SQL 的数据抽象是______和DataSet,底层是RDD。
    正确答案:DataFrame
  2. Spark SQL中有两种方法可以在DataFrame和RDD之间进行转换,第一种方法是利用____________机制,推导包含某种类型的RDD。
    正确答案:反射
  3. 在spark-shell启动的过程中会初始化SparkSession对象为____________。
    正确答案:spark
  4. __________是Spark Streaming最基本的数据抽象。
    正确答案:DStream

判断题

  1. DataSet是分布式的数据集合,提供了强类型支持,也是在RDD的每行数据加了类型约束。
    正确答案: 正确
  2. Flume 是 Spark Streaming的基本数据源
    正确答案: 错误
  3. DStream 不可以通过外部数据源获取。
    正确答案: 错误
  4. Spark SQL的前身是Hive,是一个将Spark和hive结合的框架。
    正确答案: 错误
  5. Spark SQL目前支持Scala、Java、C++三种语言,支持SQL-92规范。
    正确答案: 错误
  6. 在Spark中可以将RDD转换为DataFrame,也可以将DataFrame转换为RDD。
    正确答案: 正确
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
4月前
|
分布式计算 大数据 Hadoop
如何对大数据应用进行性能测试
如何对大数据应用进行性能测试
|
4月前
|
存储 分布式计算 大数据
【大数据分布并行处理】单元测试(八)
【大数据分布并行处理】单元测试(八)
78 1
|
5月前
|
Oracle 关系型数据库 大数据
助力工业物联网,工业大数据之服务域:Shell调度测试【三十三】
助力工业物联网,工业大数据之服务域:Shell调度测试【三十三】
20 1
|
5月前
|
SQL Oracle 关系型数据库
助力工业物联网,工业大数据之ODS层构建:申明分区代码及测试【十】
助力工业物联网,工业大数据之ODS层构建:申明分区代码及测试【十】
46 0
|
5月前
|
存储 分布式计算 大数据
首批!阿里云MaxCompute完成中国信通院基于无服务器架构大数据平台测试
近日,阿里云计算有限公司MaxCompute产品顺利完成中国信通院首批无服务器架构(Serverless)大数据平台测试。
225 0
|
5月前
|
分布式计算 监控 MaxCompute
在MaxCompute中,每个M实例可以并行处理多个文件
在MaxCompute中,每个M实例可以并行处理多个文件
26 3
|
SQL 分布式计算 运维
【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append)测试文档
上一篇文章介绍了sqoop全量同步数据到hive, 本片文章将通过实验详细介绍如何增量同步数据到hive,以及sqoop job与crontab定时结合无密码登录的增量同步实现方法。
【大数据开发运维解决方案】Sqoop增量同步mysql/oracle数据到hive(merge-key/append)测试文档
|
29天前
|
Java 测试技术 开发者
Java单元测试与集成测试:确保代码质量的最佳实践
【4月更文挑战第2天】在软件开发中,单元测试验证单个代码单元(如Java类或方法)的功能,确保其正确性;而集成测试则关注多个组件协作时的交互。JUnit是常见的Java单元测试框架,集成测试则检验组件间接口的兼容性。Spring框架提供了集成测试的支持。遵循良好编码习惯,编写可测试代码,设计全面的测试用例,是保证代码质量和稳定性的关键。
|
23天前
|
Java 测试技术
SpringBoot整合单元测试&&关于SpringBoot单元测试找不到Mapper和Service报java.lang.NullPointerException的错误
SpringBoot整合单元测试&&关于SpringBoot单元测试找不到Mapper和Service报java.lang.NullPointerException的错误
21 0
|
1天前
|
安全 测试技术 Go
Golang深入浅出之-Go语言单元测试与基准测试:testing包详解
【4月更文挑战第27天】Go语言的`testing`包是单元测试和基准测试的核心,简化了测试流程并鼓励编写高质量测试代码。本文介绍了测试文件命名规范、常用断言方法,以及如何进行基准测试。同时,讨论了测试中常见的问题,如状态干扰、并发同步、依赖外部服务和测试覆盖率低,并提出了相应的避免策略,包括使用`t.Cleanup`、`t.Parallel()`、模拟对象和检查覆盖率。良好的测试实践能提升代码质量和项目稳定性。
7 1

热门文章

最新文章