阿里云大数据ACA及ACP复习题（241~250）-阿里云开发者社区

阿里云大数据ACA及ACP复习题（241~250）

2023-09-16 1024

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

全局流量管理 GTM，标准版 1个月

简介： 本人备考阿里云大数据考试时自行收集准备的题库，纯手工整理的，能够覆盖到今年7月份，应该是目前最新的，发成文章希望大家能一起学习，不要花冤枉钱去买题库背了，也希望大家能够顺利通关ACA和ACP考试。

241.使用简单的数据可视化图表，可以让观察者在短时间内关注重点。上述文字体现了数据可视化的（ D ）优势？
A:容易记忆
B:多维展示
C:传播速度快
D:数据更直观

解析：“能够在短时间内关注重点”说明了数据直观

242.流计算的一般处理流程有数据采集、数据实时计算以及实时查询，下面关于流计算的描述，错误的是？（ D ）
A:流计算是实时获取来自不同数据源的海量数据，经过实时分析处理，获得有价值的信息
B:对实时处理后的数据，提供用户实时查询展示。且是一个主动推送的过程，数据更新过程中自主推送，避免了传统数据的使用时需要自主查询的情况
C:经过流处理系统处理后的数据，数据直接流出使用或存入数据库，但有时候因为需求的要求有高时效性，数据处理时间过长，无法使用，也可以丢弃数据
D:数据实时采集到数据实时计算，然后数据实时查询，不能自动推送

解析：实时计算是通过Source到process再到Sink的过程，数据端可以通过定义实现自动数据推送功能

243.在HDFS写入数据的工作过程中，用于存储元数据的节点是（ C ）？
A:HDFS Client
B:DataNode
C:NameNode
D:Distributed File System

解析：Namenode是元数据存放的节点，为主要管理节点

244.以下内容属于哪种数据类型？（ B ）

<student>
<name>Amy</name>
<age>18</age>
</student>

A:结构化
B:半结构化
C:非结构化
D:网状数据

解析：结构化数据：简单来说是数据库可以进行二维存储；
半结构化数据：比如Xml、json等数据；
非结构化数据：如图片、视频等；
网状结构：用有向图表示实体和实体之间的联系的数据结构模型称为网状数据。

245.HDFS读取文件步骤正确的是（ D ）。
A:客户端与DataNode建立连接一客户端请求NameNode的元数据信息一客户端与所有的目标DataNode建立连接并读取文件一NameNode反馈目标文件Block和DataNode节点的对应关系
B:客户端与DataNode建立连接一客户端请求DataNode的元数据信息一客户端与所有的目标DataNode建立连接井读取文件
C:客户端与DataNode建立连接一客户端请求DataNodef的元数据信息一客户端与所有的目标DataNode建立连接井读取文件一读写完毕后，客户端给NameNode发生读取信息
D:客户端与NameNode建立连接一客户端请求NameNode的元数据信息一NameNode反馈目标文件Block和DataNode节点的对应关系一客户端与所有的目标DataNode建立连接并读取文件

解析：HDFS读取，NameNode负责数据的管理，DataNode负责数据的存储，客户端请求会先有NameNode交互，获取到请求数据的DataNode位置返回给客户端，客户端再指定读取datanode数据

246.数据采集多维性指的是要收集业务对象的（ A ）数据。
A:不同角度的业务数据
B:多种类型和维度
C:数量和来源
D:属性和数量

解析：数据多维性指的是描述数据的角度多、从不同的方面来描述数据。数据维度指的是描述数据的业务角度

247.在大数据生态体系的数据处理中，有两种计算引擎MapReduce 与Spark，两种计算引擎在数据处理的流程中有着本质区别，下面选项中关于这两种引擎的说法正确的是（ AC ）。
A:Spark做数据计算时，首先会从文件系统读取文件，后续为了提升计算效率，会将第一次读取的数据存入内存中，方便后续计算从内存中读取
B:MapReduce做数据计算时，首先会从文件系统读取文件，后续为了提升计算效率，会将第一次读取的数据存入内存中，方便后续计算从内存中读取
C:MapReduce做数据迭代计算时，必须从文件系统中，不停的读取写入，以完成计算
D:MapReduce跟Spark相比，处理速度更快

解析：MapReduce计算框架是基于磁盘的，做数据迭代计算时，必须从文件系统中，不停的读取写入，以完成计算，IO开销大，效率低，但适用于大数据量 Spark计算框架是基于内存的，首先会从文件系统读取文件，后续为了提升计算效率，会将第一次读取的数据存入内存中，方便后续计算从内存中读取，基于内存计算IO开销小，内存消耗大，适用于相对小数据量，计算效率要求较高的场景

248.在Hadoop的体系中，哪一个组件解决数据存储的问题？（ A ）
A:HDFS
B:Redis
C:MongoDB
D:MySQL

解析：HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取

249.数据预处理是将原始数据转换为可理解的格式的过程，数据预处理的步骤不包含的选项是？（ C ）
A:数据集成
B:数据清洗
C:数据脱敏
D:数据归约
E:数据变换

解析：数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。

250.Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎，关于Spark的特点描述，正确的是？（ ABC ）
A:可以使用Python、SQL、scala、Java或R语言，统一离线计算和实时计算开发方式
B:通用的SQL分析，快速构建分析报表，运行速度快于大多数数仓计算引擎
C:大规模科学计算，支持对PB 级数据执行探索性分析
D:可以在桌面电脑上训练机器学习算法，但不能使用相同的代码扩展到包合数千台机器的集群上，需要修改代码

解析：Batch/Streaming data：统一化离线计算和实时计算开发方式，支持多种开发语言，Python、SQL、Scala、Java、R SQL analytics：通用的SQL分析快速构建分析报表，运行速度快于大多数数仓计算引擎 Data science at scale：大规模的数据科学引擎，支持PB级别的数据进行探索性数据分析，不需要使用采样 Machine learning：可以支持在笔记本电脑上训练机器学习算法，并使用相同的代码扩展到数千台机器的集群上

阿里云大数据ACA及ACP复习题（241~250）

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

阿里云大数据ACA及ACP复习题（241~250）

热门文章

最新文章

相关课程

相关电子书

相关实验场景