121.数据清洗(Data Cleaning)是用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。下列选项中,对数据清洗描述正确的是(ABC)
A:数据清洗可以检测表中的不准确或损坏的记录
B:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据
C:数据清洗时检测出不正确的数据可以替换,修改或删除
D:数据清洗不可以纠正脏数据
解析:数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。
122.Flink在大数据处理与分析中的作用不包含(B)?
A:实时推荐
B:实时存储
C:实时反作弊
D:实时IOT数据分析
解析:Flink的功能有: 实时数仓、实时ETL、实时反作弊、 实时监测、实施推荐、实时IoT数据分析 ,Flink是实时处理引擎,不进行数据存储
123.数据采集是指使用技术手段进行(A)?
A:数据收集
B:数据存储
C:数据分析
D:数据挖掘
解析:数据采集是指对目标领域、场景的特定原始数据进行采集的过程。
124.Hadoop在底层维护多个数据副本,使应用运行稳定运作。这是Hadoop的(C)特点。
A:安全性
B:易扩展
C:高可靠
D:高效率
解析:“使应用运行稳定运作”体现了高可靠的特点
125.以下属于分布式文件系统的是哪个文件系统?(B)
A:FAT32
B:GFS
C:NTFS
D:EXT6
解析:GFS(Google File System)是Google公司专为满足公司需求而开发的基于Linux的可扩展的分布式文件系统,用于大型的、分布式的、对大数据进行访问和应用,成本低,应用于廉价的普通硬件上。
126.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别(D)
A:Volume规模性
B:Velocity高速性
C:Variety多样性
D:Veracity准确性
E:Value价值性
解析:大数据的 5v 特征包括容量(Volume)、速率(Velocity)、多样性(Variety)和真实性(Veracity)以及价值(Value),区别于4V(容量,速率,多样性,价值),多了一项(Veracity)准确性。
127.HDFS主要采用主从结构模型,主节点负责数据请求与元数据的保存,以下选项中哪个节点负责数据存储?(C)
A:NameNode
B:Jobtracker
C:DataNode
D:SecondaryNameNode
解析:DataNode 负责存储数据的,提供真实文件数据的存储服务。
128.下列选项中属于阿里云数据可视化产品是?(AB)
A:Quick BI
B:DataV
C:DataX
D:Data Integration
解析:数据可视化DataV是阿里云一款数据可视化应用搭建工具; Quick BI通过智能的数据分析和可视化能力帮助企业构建数据分析系统 数据集成(Data Integration) DataX是异构数据源离线同步的工具
129.数据采集的技术有许多种,下列选项中不是采集技术的是(D)
A:Sqoop采集技术
B:Flume采集技术
C:网络爬虫技术
D:MapReduce处理技术
解析:大数据的并行处理利器——MapReduce
130.随着时代的发展,业务中需要保存的数据量成倍增长,传统的文件系统已不能满足业务发展的需要,而分布式文件系统的出现可以解决以下哪个向题?(A)
A:存储扩展
B:数据压缩
C:文件查找
D:文件命名
解析:存储扩展