阿里云大数据ACA及ACP复习题（161~170）-阿里云开发者社区

阿里云大数据ACA及ACP复习题（161~170）

2023-09-10 995

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本人备考阿里云大数据考试时自行收集准备的题库，纯手工整理的，能够覆盖到今年7月份，应该是目前最新的，发成文章希望大家能一起学习，不要花冤枉钱去买题库背了，也希望大家能够顺利通关ACA和ACP考试。

161.使用DataWorks数据集成同步数据流程包含下列（ ABCD ）选项？
A:配置数据源
B:创建同步任务
C:运行同步任务
D:查看结果
E:数据加工
F:数据运维

解析：DataWorks数据集成同步数据流程：配置数据源-创建同步任务-运行同步任务-查看结果

162.默认情况下HDFS中一个数据块会保存（ C ）份副本？
A:1份
B:2份
C:3份
D:4份

解析：HDFS中的文件是以数据块的形式划分与存储的，并以副本机制来保证数据存储的安全性，默认情况下HDFS中一个数据块会保存3份副本。

163.MaxCompute与机器学习平台PAI无缝集成，提供强大的机器学习处理能力；用户也可使用熟悉的Spark-ML开展智能分析。使用Python机器学习三方库。上述文字这体现了MaxCompute在大数据处理与分析中的（ A ）作用？
A:集成AI能力
B:支持流式采集和近实时分析
C:数据存储能力
D:弹性能力与扩展型

解析：https://help.aliyun.com/document_detail/27800.html
集成AI能力与机器学习平台PAI无缝集成，提供强大的机器学习处理能力。
您可以使用熟悉的Spark-ML开展智能分析。
使用Python机器学习三方库。

164.随着大数据时代的发展，Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件HBase是( D )
A:工作流引擎
B:资源管理系统
C:分布式文件系统
D:列式数据库

解析：hbase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。

165.进行数据清洗时，针对于不同的情况和场景需要选择不同的方法，以下对数据进行清洗的手段正确的是( ACD )
A:缺失值填充
B:集成不同的数据库
C:重复值处理
D:异常值和数据类型转换

解析：数据清洗的内容包括：缺失值处理、异常值处理、数据类型转换、重复值处理

166.数据清洗有哪些作用？（ BCD ）
A:数据清洗不可以纠正脏数据
B:数据清洗可以检测表中的不准确或损坏的记录
C:数据清洗可以识别不正确，不完整，不相关，不准确或其他有问题(“脏”)的数据
D:数据清洗时检测出不正确的数据可以替换，修改或删除

解析：数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。
广义地说，数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。

167.Sqoop是一款开源的工具，主要用于在Hadoop与传统的关系型数据库之间进行的操作是？（ D ）
A:数据清洗
B:数据存储
C:处理日志数据
D:传输数据

解析：链接：https://help.aliyun.com/document_detail/135296.html
Sqoop是一款开源的工具，主要用于在Hadoop和结构化数据存储（例如关系数据库）之间高效传输批量数据。

168.聚类算法与分类算法有哪些区别？（ D ）
A:聚类有标签，分类无标签
B:聚类无标签，分类无标签
C:聚类有标签，分类有标签
D:聚类无标签，分类有标签

解析：聚类无标签是无监督学习，无标签,分类有标签是监督学习，需要标签

169.Hadoop可以自动保存数据的多个副本，并且可以自动将失败的任务重新分配。上述文本体现了Hadoop的（ A ）特点。
A:高容错
B:高效率
C:高扩展
D:高可靠

解析：“自动将失败的任务重新分配”体现了高容错的特点

170.HDFS读写数据工作流程中，用于存储Block数据的节点是（ A ）。
A:DataNode
B:HDFS Client
C:Distributed File System
D:NameNode

解析：1、Client：就是客户端。文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。与 NameNode 交互，获取文件的位置信息。与 DataNode 交互，读取或者写入数据。 Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS。 Client 可以通过一些命令来访问 HDFS。
2、NameNode：就是 master，它是一个主管、管理者。管理 HDFS 的名称空间管理数据块（Block）映射信息配置副本策略处理客户端读写请求。
3、DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操作。存储实际的数据块。执行数据块的读/写操作。
4、Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。辅助 NameNode，分担其工作量。定期合并 fsimage和fsedits，并推送给NameNode。在紧急情况下，可辅助恢复 NameNode。

阿里云大数据ACA及ACP复习题（161~170）

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云大数据ACA及ACP复习题（161~170）

热门文章

最新文章

相关课程

相关电子书