351.数据源指的是DataWorks所处理的数据的来源,以下关于数据源说法错误的是?( C )
A:数据源可以是一个数据库或者数据仓库
B:DataWorks支持MySQL、HBase、Kafka等类型的数据源
C:只支持关系型数据库作为数据源
D:各种数据源可以进行转换
解析:数据源支持Oracel、mysql等多种数据库或数据仓库; DataWorks支持MySQL、HBase、Kafka等类型的数据源; Dataworks同时支持OTS、OSS、FTP等文件数据库和非关系型数据库; DataX可以实现数据源相互转换
352.回归属于有监督学习算法,以下哪个不属于回归算法应用的场景?( B )
A:根据新输入父亲的身高来分析其孩子的身高
B:分析用户是否会购买电脑
C:根据现有房价信息,预测未来的房价
D:根据历史的天气数据,预测未来的天气
解析:回归算法:回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量之间是否相关、相关方向和强度,并简历数学模型以便观察特定变量来预测研究者感兴趣的变量。预测身高属于回归算法;是否购买属于分类算法;预测房价属于回归算法;预测天气属于回归算法
353.监督学习利用一组已知类别的样本来训练模型,这些输入的数据又被称为什么?( B )
A:测试数据
B:训练数据
C:验证数据
D:结果数据
解析:训练集用来训练模型,测试集用来选择最优模型,验证集用来验证模型复杂度
354.按照学习方式不同进行分类,以下哪个不属于机器学习的分类?( D )
A:监督学习
B:无监督学习
C:半监督学习
D:全监督学习
解析:目前机器学习主流分为:监督学习,无监督学习,强化学习,半监督学习无全监督学习概念
355.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的( A )作用?
A:弹性能力与扩展型
B:集成AI能力
C:支持流式采集和近实时分析
D:数据存储能力
解析:https://help.aliyun.com/document_detail/27800.html
弹性能力与扩展性 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。 支持实时根据业务峰谷变化分配资源。
356.Hologres基于行存表的主键索引和查询引擎的短路径优化,支持每秒数十万QPS高性能服务型点查,支持高吞吐更新,相比开源系统性能提升10倍以上。体现了Hologres在大数据处理与分析中的什么作用?( C )
A:亚秒级交互式分析(OLAP)
B:联邦查询,外表加速(Federation)
C:高性能主键点查(Serving)
D:联机事务处理(OLTP)
解析:https://help.aliyun.com/document_detail/113648.html
高性能主键点查 基于行存表的主键索引和查询引擎的短路径优化,Hologres支持每秒数十万QPS高性能服务型点查、支持高吞吐更新,相比开源系统性能提升10倍以上,可用于实时加工链路的维表关联、ID-Mapping等场景。
357.( C )平台将基础设施(计算资源和存储)作为服务出租。如阿里云的各种云资源、自己购买原材料制作披萨。
A:SaaS
B:PaaS
C:laaS
D:Daas
解析:IaaS将基础设施(计算资源和存储)作为服务出租
358.在数据预处理中( D )策略可以检测及删除不相关、弱相关和冗余的属性或维,它的分类为主成分分析、属性子集选择。
A:数据立方体
B:数据压缩
C:数据规约
D:维规约
E:离散化和概念分层生成
解析:维归约(dimensionalityreduction)减少所考虑的随机变量或属性的个数,方法包括小波变换、主成分分析,把原数据变换或投影到较小的空间。属性子集选择也是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测或删除。
359.下列关于Hadoop的生态组件 Sqoop概念的描述,哪些说法是正确的?( B )
A:是一个基于工作流引擎的开源框架,提供对Hadoop。MapReduce和Pig Jobs的任务调度与协调
B:是一种用于在HDFS和RDMS之间传输数据的工具
C:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
D:是大数据集日志收集的框架
解析:是一种用于在HDFS和RDMS之间传输数据的工具
360.在Spark SQL架构中,哪个组件负责将物理执行任务解析成Spark能运行的任务?( D )
A:Metastore
B:CacheManager
C:Physical Plan
D:Execution
解析:Spark要想很好地支持SQL,就需要完成解析(Parser)、优化(Optimizer)、执行(Execution)三大过程。Catalyst优化器在执行计划生成和优化的工作时候,它离不开自己内部的五大组件,具体如下所示。 Parse组件:该组件根据一定的语义规则(即第三方类库ANTLR)将SparkSql字符串解析为一个抽象语法树/AST。 Analyze组件:该组件会遍历整个AST,并对AST上的每个节点进行数据类型的绑定以及函数绑定,然后根据元数据信息Catalog对数据表中的字段进行解析。 Optimizer组件:该组件是Catalyst的核心,主要分为RBO和CBO两种优化策略,其中RBO是基于规则优化,CBO是基于代价优化。 SparkPlanner组件:优化后的逻辑执行计划OptimizedLogicalPlan依然是逻辑的,并不能被Spark系统理解,此时需要将OptimizedLogicalPlan转换成physical plan(物理计划)。 CostModel组件:主要根据过去的性能统计数据,选择最佳的物理执行计划。