241.使用简单的数据可视化图表,可以让观察者在短时间内关注重点。上述文字体现了数据可视化的( D )优势?
A:容易记忆
B:多维展示
C:传播速度快
D:数据更直观
解析:“能够在短时间内关注重点”说明了数据直观
242.流计算的一般处理流程有数据采集、数据实时计算以及实时查询,下面关于流计算的描述,错误的是?( D )
A:流计算是实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息
B:对实时处理后的数据,提供用户实时查询展示。且是一个主动推送的过程,数据更新过程中自主推送,避免了传统数据的使用时需要自主查询的情况
C:经过流处理系统处理后的数据,数据直接流出使用或存入数据库,但有时候因为需求的要求有高时效性,数据处理时间过长,无法使用,也可以丢弃数据
D:数据实时采集到数据实时计算,然后数据实时查询,不能自动推送
解析:实时计算 是通过Source到process再到Sink的过程,数据端可以通过定义实现自动数据推送功能
243.在HDFS写入数据的工作过程中,用于存储元数据的节点是( C )?
A:HDFS Client
B:DataNode
C:NameNode
D:Distributed File System
解析:Namenode是元数据存放的节点,为主要管理节点
244.以下内容属于哪种数据类型?( B )
<student>
<name>Amy</name>
<age>18</age>
</student>
A:结构化
B:半结构化
C:非结构化
D:网状数据
解析:结构化数据:简单来说是数据库可以进行二维存储;
半结构化数据:比如Xml、json等数据;
非结构化数据:如图片、视频等;
网状结构:用有向图表示实体和实体之间的联系的数据结构模型称为网状数据。
245.HDFS读取文件步骤正确的是( D )。
A:客户端与DataNode建立连接一客户端请求NameNode的元数据信息一客户端与所有的目标DataNode建立连接并读取文件一NameNode反馈目标文件Block和DataNode节点的对应关系
B:客户端与DataNode建立连接一客户端请求DataNode的元数据信息一客户端与所有的目标DataNode建立连接井读取文件
C:客户端与DataNode建立连接一客户端请求DataNodef的元数据信息一客户端与所有的目标DataNode建立连接井读取文件一读写完毕后,客户端给NameNode发生读取信息
D:客户端与NameNode建立连接一客户端请求NameNode的元数据信息一NameNode反馈目标文件Block和DataNode节点的对应关系一客户端与所有的目标DataNode建立连接并读取文件
解析:HDFS读取,NameNode负责数据的管理,DataNode负责数据的存储,客户端请求会先有NameNode交互,获取到请求数据的DataNode位置返回给客户端,客户端再指定读取datanode数据
246.数据采集多维性指的是要收集业务对象的( A )数据。
A:不同角度的业务数据
B:多种类型和维度
C:数量和来源
D:属性和数量
解析:数据多维性指的是描述数据的角度多、从不同的方面来描述数据。数据维度指的是描述数据的业务角度
247.在大数据生态体系的数据处理中,有两种计算引擎MapReduce 与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎的说法正确的是( AC )。
A:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
B:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
C:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算
D:MapReduce跟Spark相比,处理速度更快
解析:MapReduce计算框架是基于磁盘的,做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算,IO开销大,效率低,但适用于大数据量 Spark计算框架是基于内存的,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取,基于内存计算IO开销小,内存消耗大,适用于相对小数据量,计算效率要求较高的场景
248.在Hadoop的体系中,哪一个组件解决数据存储的问题?( A )
A:HDFS
B:Redis
C:MongoDB
D:MySQL
解析:HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取
249.数据预处理是将原始数据转换为可理解的格式的过程,数据预处理的步骤不包含的选项是?( C )
A:数据集成
B:数据清洗
C:数据脱敏
D:数据归约
E:数据变换
解析:数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。
250.Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,关于Spark的特点描述,正确的是?( ABC )
A:可以使用Python、SQL、scala、Java或R语言,统一离线计算和实时计算开发方式
B:通用的SQL分析,快速构建分析报表,运行速度快于大多数数仓计算引擎
C:大规模科学计算,支持对PB 级数据执行探索性分析
D:可以在桌面电脑上训练机器学习算法,但不能使用相同的代码扩展到包合数千台机器的集群上,需要修改代码
解析:Batch/Streaming data:统一化离线计算和实时计算开发方式,支持多种开发语言,Python、SQL、Scala、Java、R SQL analytics:通用的SQL分析快速构建分析报表,运行速度快于大多数数仓计算引擎 Data science at scale:大规模的数据科学引擎,支持PB级别的数据进行探索性数据分析,不需要使用采样 Machine learning:可以支持在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到数千台机器的集群上