421.在搭建数据仓库、进行日常数据分析的过程中,用户通常会注重数据质量,如下关于数据质量的描述,哪项是错误的?( D )
A:数据质量是数据分析结论有效性和准确性的基础,也是很重要的前提和保障
B:为了获得可靠的数据,企业必须密切关注数据质量
C:数据质量是直接影响系统应用成功的关键因素之一
D:大部分情况下数据质量问题可以忽略,不会直接影响系统效用
解析:数据质量是数据分析的前提;数据加密为了数据安全;数据质量的重要性,直接影响系统能否成功;数据质量问题不能忽略
422.在某个客户管理系统中,客户年龄(具体年龄取值)在客户信息表和客户分群信息表(记录了年龄层次)中信息有差异,此种数据主要体现了哪种类型的数质量问题?( D )
A:缺失值
B:重复值
C:数据完整性
D:数据不一致
解析:信息有差异,代表数据一致性不足
423.分析师小王为公司预测某种产品销量,目标是将下个周期的预测误差控制在10%以内,并洞察价格和促销方法对该产品销量的影响。小王使用了公司中一直在使用的预测模型后,发现预测非常不准,原来是因为该产品的促销周期跟其他大多数产品不一样。正确的销售预测流程是确定目标>整理数据>选择方法>建立模型>编写报告。对于小王的疏忽,最准确的描述是( C )
A:小王没有问清楚该项目的目标
B:小王没有分析和整理好原始数据
C:小王选择了错误的预测方法
D:小王的建模调参水平不行
解析:目标是将下个周期的预测误差控制在10%以内,并洞察价格和促销方法对该产品销量的影响。目标明确;小王使用了公司中一直在使用的预测模型后,发现预测非常不准,原来是因为该产品的促销周期跟其他大多数产品不一样,以上说明公司产品特殊不应该使用和其他产品一样的预测模型
424.在进行数据分析之前,需要对数据进行处理,下列哪项不是数据预处理操作?( D )
A:数据清洗,去噪声和无关数据
B:数据集成 ,将多个数据源中的数据结合起来存放在一个一致的数据存储中
C:数据变换,把原始数据转换成为适合数据挖掘的形式
D:选择合适的算法模型进行数据建模
解析:数据预处理:数据清洗、数据集成、数据变换、数据规约
425.DataWorks的任务运维工作在运维中心模块进行,模块的主要功能不包含下列哪个选项内容?( D )
A:运维概览
B:任务列表
C:智能监控/智能诊断
D:任务调度
解析:运维中心的主要功能包含运维概览、任务列表、智能监控/智能诊断、任务运维
426.小明想要使用DataV为公司设计一个实时监控型可视化大屏,以下哪个( D )数据源可以配合DataV实现大屏制作。
A:Hbase
B:Hive
C:MaxCompute
D:RDS for MySql
解析:
DataV产品支持的数据源包括:AnalyticDB for MySQL、RDS for MySQL、兼容MySQL数据库、RDS for PostgreSQL、RDS for SQLServer、CSV文件、DataV数据代理服务、API、静态JSON、OpenAPI、对象存储OSS、简单日志服务SLS、Table Store、Oracle、阿里云API网关、业务实时监控、交互式分析 Hologres、Elastic Search、区块链服务、宜搭数据源、PolarDB for MySQL、PolarDB for PostgreSQL、PolarDB for Oracle、OceanBase for MySQL和数据集等。
427.遇到样本不均衡时,如何处理。比如正样本包含95700条数据,负样本包含5000条数据,合适的处理方法是( ABC )?
A:从正样本中抽样5000条数据
B:将负样本重复20次,并打乱顺序
C:提升负样本的权重
D:为了让模型自主学习数据规律,将全部数据用于训练
解析:常用的处理样本不均衡的操作包括:上采样、下采样和提升权重
428.关于PAI-DSW读写数据大文件(大于300M)下载描述正确的是( AD )。
A:如果数据在DSW提供的默认空间里,先将数据拷贝到挂载的NAS中再下载
B:使用DSW前端下载工具下载
C:可以直接下载
D:通过服务器FTP方式下载,只支持用户自己挂载的NAS下载
解析:如果文件不超过300M,建议直接使用DSW前端下载工具下载,直接在DSW中右键文件,点击download
如果文件大于300M,建议通过服务器FTP方式下载,目前这种下载方式只支持用户自己挂载的NAS下载,如果数据在DSW提供的默认5GB存储空间中,可先将数据拷贝到自己挂载的NAS中再下载。
429.Sqoop是用于在Hadoop与传统的数据库之间进行数据的传输的工具,其特点有( ABC )
A:高性能
B:自动类型转换
C:自动传播元信息
D:弹性伸缩
解析:Sqoop的特点: 性能高、自动类型转换、自动转换元信息
430.HBase是一个能完成海量数据的存储的工具,支持线上业务的实时查询,基于列族的数据库,以下选项中,关于HBase描述正确的?( AD )
A:是一种NoSQL数据库
B:不是开源的
C:是面向对象的
D:高可用的
解析:
HBase 是一种面向列的开源 NoSQL 数据库。 HBase是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,基于列的存储模式适合于存储非结构化数据。