【大数据分布并行处理】单元测试(九)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 【大数据分布并行处理】单元测试(九)


第九单元

单选题

  1. Spark SQL可以处理的数据源都包括哪些:
    A. 数据文件、Hive表
    B. Parquet文件和Hive表
    C. 数据文件、RDD
    D. 数据文件、Hive表、RDD、外部数据库
    正确答案: D
  2. 下列关于 Spark SQL 的描述错误的是?
    A. SqlContext现在只支持SQL语法解析器
    B. Spark SQL 对数据的查询分成了两个分支:SqlContext 和 HiveContext
    C. 在spark-shell 中执行 SQL 语句,需要使用 SqlContext 对象来调用sql()方法
    D. HiveContext仅支持HiveQL语法解析器,不支持 SQL语法解析器
    正确答案: D
  3. 关于DataFrame 描述不正确的是?
    A. 支持KB级到PB级的数据处理
    B. DataFrame是一种不可变的分布式数据集
    C. DataFrame是分布式的列对象的集合
    D. 支持读取多种存储系统的数据及支持多种数据格式:
    正确答案: C
  4. 下面关于Spark Streaming描述错误的是:
    A. Spark Streaming的基本原理是将实时输入数据以时间片为单位进行拆分
    B. Spark Streaming可以整合多种输入数据源,如Kafka,Flume,HDFS,甚至是普通的TCP套接字
    C. Spark Streaming的数据抽象是DataFrame
    D. Spark Streaming的数据抽象是DStream
    正确答案: C
  5. 下列哪个说法是正确的?
    A. Spark SQL的前身是Hive
    B. DataFrame其实就是RDD
    C. HiveContext 继承了SqlContext
    D. HiveContext只支持SQL语法解析器
    正确答案: C
  6. 如何查看DataFrame对象df的前10条记录?
    A. df.show()
    B. df.show(False)
    C. df.collect()
    D. df.show(10)
    正确答案: D
  7. 下面不属于Spark Streaming基本数据源的是?
    A. 文件系统
    B. Kafka
    C. Socket连接
    D. RDD队列流等
    正确答案: B
  8. 关于DataFrame及相关函数说法不正确的是?
    A. DataFrame由SchemaRDD发展而来
    B. createOrReplaceTempView()函数是行动算子
    C. toDF()是Spark中创建DataFrame的一种简单方式。它可以将RDD转换为DataFrame,并自动推断元素的类型和创建列
    D. RDD到DataFrame的转换,需要手动导入一个隐式转换,否则RDD无法转换成DataFrame
    正确答案: B
  9. 下面关于MLlib的说法不正确的是?
    A. MLlib是Spark的机器学习(ML)库
    B. MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等
    C. spark.mllib包含基于DataFrame的原始算法API
    D. MLlib库从1.2版本以后分为两个包:spark.mllib和spark.ml
    正确答案: C
  10. VertexId必须是哪种数据类型?
    A. Long
    B. Int
    C. Double
    D. String
    正确答案: A

多选题

  1. 关于DataFrame的说法正确的是?
    A. DataFrame是Spark SQL提供的最核心的编程抽象
    B. DataFrame直接继承了RDD
    C. DataFrame是一个分布式的Row对象的数据集合
    D. DataFrame实现了RDD的绝大多数功能
    正确答案: ACD
  2. 相比shark,Spark优势有哪些?
    A. Spark SQL摆脱了对Hive的依赖
    B. Spark SQL支持在scala中写SQL
    C. Spark SQL支持Parquet文件的读写,且保留Schema
    D. Spark SQL支持访问Hive,而Shark不支持
    正确答案: ABC
  3. 关于DStream,以下说法正确的是?
    A. DStream代表了持续的数据流
    B. DStream可以通过现有的DStream的高级操作获得
    C. DStream只能通过外部数据源(Kafka、Flume等)来获取
    D. 对DStream的任何操作都会转化成底层的RDDS操作
    正确答案: ABD
  4. 关于Spark Streaming,下列说法正确的是?
    A. Spark Streaming是Spark的核心子框架之一
    B. Spark Streaming具有可伸缩、高吞吐量、容错能力强等特点
    C. Spark Streaming处理的数据源可以来自Kafka
    D. Spark Streaming不能和Spark SQL、Mllib、GraphX无缝集成
    正确答案: ABC
  5. 使用Spark Streaming,一般需要哪几个步骤?
    A. 创建StreamingContext 对象
    B. 创建InputStream
    C. 操作DStream
    D. 启动Spark Streaming
    正确答案: ABCD

填空题

  1. Spark SQL 的数据抽象是______和DataSet,底层是RDD。
    正确答案:DataFrame
  2. Spark SQL中有两种方法可以在DataFrame和RDD之间进行转换,第一种方法是利用____________机制,推导包含某种类型的RDD。
    正确答案:反射
  3. 在spark-shell启动的过程中会初始化SparkSession对象为____________。
    正确答案:spark
  4. __________是Spark Streaming最基本的数据抽象。
    正确答案:DStream

判断题

  1. DataSet是分布式的数据集合,提供了强类型支持,也是在RDD的每行数据加了类型约束。
    正确答案: 正确
  2. Flume 是 Spark Streaming的基本数据源
    正确答案: 错误
  3. DStream 不可以通过外部数据源获取。
    正确答案: 错误
  4. Spark SQL的前身是Hive,是一个将Spark和hive结合的框架。
    正确答案: 错误
  5. Spark SQL目前支持Scala、Java、C++三种语言,支持SQL-92规范。
    正确答案: 错误
  6. 在Spark中可以将RDD转换为DataFrame,也可以将DataFrame转换为RDD。
    正确答案: 正确
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
消息中间件 分布式计算 大数据
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
大数据-123 - Flink 并行度 相关概念 全局、作业、算子、Slot并行度 Flink并行度设置与测试
145 0
|
1月前
|
分布式计算 负载均衡 大数据
大数据水平处理并行处理
【11月更文挑战第3天】
38 2
|
2月前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
72 1
|
2月前
|
SQL 分布式计算 NoSQL
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
大数据-170 Elasticsearch 云服务器三节点集群搭建 测试运行
50 4
|
2月前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
80 1
|
2月前
|
SQL 消息中间件 大数据
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(一)
72 1
|
2月前
|
SQL 大数据 Apache
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
大数据-159 Apache Kylin 构建Cube 准备和测试数据(二)
87 1
|
2月前
|
存储 大数据 Apache
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
大数据-146 Apache Kudu 安装运行 Dockerfile 模拟集群 启动测试
25 0
|
2月前
|
存储 SQL 分布式计算
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
大数据-135 - ClickHouse 集群 - 数据类型 实际测试
42 0
|
2月前
|
分布式计算 Java 大数据
大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window
大数据-122 - Flink Time Watermark Java代码测试实现Tumbling Window
43 0