151.以下选项中不属于关系型数据库的有( D )
A:RDS MySQL
B:SysBase
C:DB2
D:MongoDB
解析:MongoDB是面向文档的NoSQL(非关系型)数据库,它的数据结构由字段(Field)和值(Value)组成,类似于JSON对象 https://help.aliyun.com/document_detail/26558.html
152.下列对Hadoop生态组件Mahout,描述正确的是?( C )
A:可扩展的分布式数据,支持大表的结构化数据存储
B:数据仓库基础架构,提供数据汇总和命令行即席查询功能
C:可扩展的机器学习和数据挖掘库
D:用于并行计算的高级数据流语言和执行框架
解析:Mahout:可扩展的机器学习和数据挖掘库。 HBase:一个可扩展的分布式数据库,支持大表的结构化数据存储。 Pig:一个支持并行计算的高级的数据流语言和执行框架。 Hive:一个建立在 Hadoop 上的数据仓库基础构架。
153.数据视化分析平台的四大优势中,提供对话式智能机器人,满足智能数据洞察和数据预警需求,符合下列哪种优势?( C )
A:强大的Quick数据引擎
B:快速搭建数据门户
C:智能数据分析和交互
D:安全管控数据权限
解析:智能数据分析和交互:提供对话式智能机器人,满足智能数据洞察和数据预警需求
154.关于大数据平台中海量数据的存储,以下说法正确的是?(C)
A:Hadoop的分布式存储技术是GFS组件完成
B:分布式存储要求底层有多台高性能存储服务器
C:分布式存储通过数据冗余存储,提高了数据的安全性
D:分布式存储方式无法存储传统的结构化数据
解析:Hadoop的分布式存储技术是HDFS;
155.Hadoop有三个核心组件(HDFS、YARN、MapReduce),其中HDFS的全称是?( B )
A:分布式存储系统
B:Hadoop分布式文件系统
C:密集分布式
D:结构化存储
解析:Hadoop分布式文件系统(HDFS)
156.HBase是面向列、可伸缩的分布式数据库,主要处理什么类型的数据?( A )
A:非结构化与半结构化
B:文档数据
C:视频数据
D:所有数据
解析:HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌 BigTable 的开源实现,主要用来存储非结构化和半结构化的松散数据
157.Apache spark是专为大规模数据处理而设计的快速通用的计算引擎,下列选项中,哪些是Spark的优势(ABC)
A:开发比较简单,支持多语言开发
B:提供了多个高层次、简洁的API
C:可以通过RDD弹性分布式数据集方式编程,具备容错特征,能在并行计算中高效的进行数据共享,提升计算性能
D:统一采用DAG无向有环图处理模式
解析:Spark提供了多种高层次、简洁的API 有向无环图(Directed Acyclic Graph, DAG) RDD 即弹性分布式数据集(Resilient Distributed DataSet),它具备像MR等数据流模型的容错性, 能在并行计算中高效地进行数据共享进而提升计算性能。
158.数据集成(Data Integration)是阿里云对外提供的安全、低成本、稳定高效、弹性伸缩的数据同步平台,关于数据集成(DataIntegration)的描述,说法错误的是?( C )
A:数据集成的目的是提高分析效率
B:数据集成时可能会出现实体识别、冗余属性识别、元组重复等问题
C:格式相同的数据才能执行数据集成操作
D:数据集成对多个数据源的数据合并,形成一致的数据存储
解析:数据集成是将多个数据源中的数据合并,存放于一个一致的数据存储中。
数据集成过程中的关键问题: 1.实体识别 2.数据冗余和相关分析 3.元组重复 4.数据值冲突检测与处理 5.数据异常值检测
159.Apache Spark核心组件有:Spark Streaming、Spark sQL、Spark Core、GraphX、MLlib,下列哪个选项是对Spark SQL组件的描述? ( B )
A:提供流计算组件
B:是一个用来处理结构化数据的Spark组件
C:基于内存多语言执行的核心引擎
D:是一个分布式图处理框架
E:Spark机器学习库
解析:Spark SQL处理结构化数据
160.Apache Spark是一款常用于大数据工作负载的开源分布式处理系统,关于Spark核心组件的作用,描述错误的是? ( A )
A:spark streaming提供离线计算组件
B:spark SQL是一个用来处理结构化数据的Spark组件
C:Spark Core基于内存多语言执行的核心引擎
D:Graphx是一个分布式图处理框架
解析:Spark Streaming 对实时数据流进行处理和控制