阿里云大数据ACA及ACP复习题（421~430）-阿里云开发者社区

阿里云大数据ACA及ACP复习题（421~430）

2023-10-04 3200

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

RDS MySQL Serverless 高可用系列，价值2615元额度，1个月

简介： 本人备考阿里云大数据考试时自行收集准备的题库，纯手工整理的，能够覆盖到今年7月份，应该是目前最新的，发成文章希望大家能一起学习，不要花冤枉钱去买题库背了，也希望大家能够顺利通关ACA和ACP考试（自己整理解析也需要时间，可能有更新不及时的情况哈）

421.在搭建数据仓库、进行日常数据分析的过程中，用户通常会注重数据质量，如下关于数据质量的描述，哪项是错误的？（ D ）
A:数据质量是数据分析结论有效性和准确性的基础，也是很重要的前提和保障
B:为了获得可靠的数据，企业必须密切关注数据质量
C:数据质量是直接影响系统应用成功的关键因素之一
D:大部分情况下数据质量问题可以忽略，不会直接影响系统效用

解析：数据质量是数据分析的前提；数据加密为了数据安全；数据质量的重要性，直接影响系统能否成功；数据质量问题不能忽略

422.在某个客户管理系统中，客户年龄（具体年龄取值）在客户信息表和客户分群信息表（记录了年龄层次）中信息有差异，此种数据主要体现了哪种类型的数质量问题？（ D ）
A:缺失值
B:重复值
C:数据完整性
D:数据不一致

解析：信息有差异,代表数据一致性不足

423.分析师小王为公司预测某种产品销量，目标是将下个周期的预测误差控制在10%以内，并洞察价格和促销方法对该产品销量的影响。小王使用了公司中一直在使用的预测模型后，发现预测非常不准，原来是因为该产品的促销周期跟其他大多数产品不一样。正确的销售预测流程是确定目标>整理数据>选择方法>建立模型>编写报告。对于小王的疏忽，最准确的描述是（ C ）
A:小王没有问清楚该项目的目标
B:小王没有分析和整理好原始数据
C:小王选择了错误的预测方法
D:小王的建模调参水平不行

解析：目标是将下个周期的预测误差控制在10%以内，并洞察价格和促销方法对该产品销量的影响。目标明确；小王使用了公司中一直在使用的预测模型后，发现预测非常不准，原来是因为该产品的促销周期跟其他大多数产品不一样,以上说明公司产品特殊不应该使用和其他产品一样的预测模型

424.在进行数据分析之前，需要对数据进行处理，下列哪项不是数据预处理操作？（ D ）
A:数据清洗，去噪声和无关数据
B:数据集成，将多个数据源中的数据结合起来存放在一个一致的数据存储中
C:数据变换，把原始数据转换成为适合数据挖掘的形式
D:选择合适的算法模型进行数据建模

解析：数据预处理：数据清洗、数据集成、数据变换、数据规约

425.DataWorks的任务运维工作在运维中心模块进行，模块的主要功能不包含下列哪个选项内容？（ D ）
A:运维概览
B:任务列表
C:智能监控/智能诊断
D:任务调度

解析：运维中心的主要功能包含运维概览、任务列表、智能监控/智能诊断、任务运维

426.小明想要使用DataV为公司设计一个实时监控型可视化大屏，以下哪个（ D ）数据源可以配合DataV实现大屏制作。
A:Hbase
B:Hive
C:MaxCompute
D:RDS for MySql

解析：
DataV产品支持的数据源包括：AnalyticDB for MySQL、RDS for MySQL、兼容MySQL数据库、RDS for PostgreSQL、RDS for SQLServer、CSV文件、DataV数据代理服务、API、静态JSON、OpenAPI、对象存储OSS、简单日志服务SLS、Table Store、Oracle、阿里云API网关、业务实时监控、交互式分析 Hologres、Elastic Search、区块链服务、宜搭数据源、PolarDB for MySQL、PolarDB for PostgreSQL、PolarDB for Oracle、OceanBase for MySQL和数据集等。

427.遇到样本不均衡时，如何处理。比如正样本包含95700条数据，负样本包含5000条数据，合适的处理方法是（ ABC ）？
A:从正样本中抽样5000条数据
B:将负样本重复20次，并打乱顺序
C:提升负样本的权重
D:为了让模型自主学习数据规律，将全部数据用于训练

解析：常用的处理样本不均衡的操作包括：上采样、下采样和提升权重

428.关于PAI-DSW读写数据大文件（大于300M）下载描述正确的是（ AD ）。
A:如果数据在DSW提供的默认空间里，先将数据拷贝到挂载的NAS中再下载
B:使用DSW前端下载工具下载
C:可以直接下载
D:通过服务器FTP方式下载，只支持用户自己挂载的NAS下载

解析：如果文件不超过300M，建议直接使用DSW前端下载工具下载，直接在DSW中右键文件，点击download
如果文件大于300M，建议通过服务器FTP方式下载，目前这种下载方式只支持用户自己挂载的NAS下载，如果数据在DSW提供的默认5GB存储空间中，可先将数据拷贝到自己挂载的NAS中再下载。

429.Sqoop是用于在Hadoop与传统的数据库之间进行数据的传输的工具，其特点有( ABC )
A:高性能
B:自动类型转换
C:自动传播元信息
D:弹性伸缩

解析：Sqoop的特点：性能高、自动类型转换、自动转换元信息

430.HBase是一个能完成海量数据的存储的工具，支持线上业务的实时查询，基于列族的数据库，以下选项中，关于HBase描述正确的？（ AD ）
A:是一种NoSQL数据库
B:不是开源的
C:是面向对象的
D:高可用的

解析：
HBase 是一种面向列的开源 NoSQL 数据库。 HBase是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,基于列的存储模式适合于存储非结构化数据。

阿里云大数据ACA及ACP复习题（421~430）

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

阿里云大数据ACA及ACP复习题（421~430）

热门文章

最新文章

相关课程

相关电子书