441.DataWorks中,如果当前工作流/节点任务存在上游任务,则调度执行时,必须满足( BC )等条件才可以调度执行
A:上游任务已经执行
B:上游任务已经执行并返回成功
C:自身定制时间已到或已过
D:自身定制时间未到
解析:工作流执行的条件:1、上游节点返回成功 且 2、定时时间已到或已超过定时时间(考虑上游任务晚于下游任务定时时间或资源紧张)
442.大数据((Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。以下哪些属于大数据的处理思路?( AB )
A:复杂问题简单化
B:一个大向题拆分成多个小问题
C:复杂问题作为一个整体进行分析
D:小问题直接忽略不计
解析:大数据的处理思路:减治:将问题化简成一个更简单的能处理的问题 分治:将问题拆分成多个可以简单求解的小问题
443.通过Quick BI连接外部数据源,进行数据分析和报表搭建时,主要分为以下哪几个( ACEF )步骤。
A:连接数据源
B:数据加工
C:数据建模
D:配置监控告警
E:数据可视化分析
F:发布共享
解析:https://help.aliyun.com/document_detail/161417.html?spm=a2c4g.33813.0.i5
步骤一:连接数据源
步骤二:数据建模
步骤三:数据可视化分析
步骤四:发布共享
444.以下关于阿里云Flink版框架的描述,描述正确的是?( D )
A:Flink版运行在阿里云容器服务和ECS等SaaS系统上
B:Flink版与Apache Flink功能相同,但相互不兼容
C:Flink是一个流批一体的计算框架
D:将各种不同的实时数据源中的数据进行实时订阅、处理与分析。
解析:Flink主要的应用场景就是将各种不同的实时数据源中的数据进行实时的订阅、处理、分析,并把得到的结果写入到其他的在线存储之中,让您直接生产使用。
445.在传统的大数据批处理系统中,关于Mapreduce缺点,下列说法正确的是( ABCD )?
A:中间结果多
B:不擅长实时计算
C:延迟高
D:磁盘IO开销大
解析:MapReduce的缺点:
1、无法在毫秒或秒级内返回结果;
2、输入数据集是动态的,不能动态变化;
3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下;
4、Mapreduce因分布式计算 并行能力强。
446.下列( B )属于某开源分布式文件系统,且适合以文件为载体提供在线服务?
A:OSS
B:FastDFS
C:HDFS
D:S3
解析:FastDFS是一个开源的分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。 特别适合以文件为载体的在线服务, 如相册网站,视频网站等等。
447.在Spark SQL架构中,( A )组件负责执行计划生成和优化?
A:Catalyst
B:Execution
C:SQL Parser
D:Physical Plan
解析:Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责。
448.MapReduce的优点有哪些?( AB )
A:实现简单接口,即可完成分布式程序
B:使用在分布式计算框架,所以当一台机器失败后,可以自动切换至其他节点运行该任务
C:只适合少量的数据处理
D:可以通过配置Map任务数来扩展计算能力
解析:
MapReduce的优点:
1、易于编程。用户只关心业务逻辑,实现框架的接口。
2、良好的扩展性。可以动态增加服务器,解决计算资源资源不足问题。
3、高容错性。任何一台机器挂掉,可以将任务转移到其他节点。
4、适合海量数据计算(TB/PB),几千台服务器共同计算。
449.MaxCompute集成AI能力体现在( ABC )?
A:与PAI的无缝集成
B:与Spark-Mllib结合
C:使用Python的第三方机器学习库
D:与Mahout框架的集成
解析:链接:https://help.aliyun.com/document_detail/27800.html?spm=a2c4g.466617.0.i3
集成AI能力: 与机器学习平台PAI无缝集成,提供强大的机器学习处理能力。 您可以使用熟悉的Spark-ML开展智能分析。 使用Python机器学习三方库。
450.数据分析有两大要素,一为理论,二为技术,理论与技术的结合,才真正的构成了数据分析。那么关于数据分析的理论与技术,下面说法正确的是?( BD )
A:数据分析理论包含统计学、机器学习、数据挖掘算法、数据存储
B:数据分析技术包含单机分析工具、单机编程语言(如Python等)、大数据处理技术(如MapReduce、Spark、Hive等)
C:大数据时代前以少量数据分析为主,编写单机程序,计算分析结果
D:大数据时代后借助分布式计算框架,处理海量数据,完成数据分析
解析:数据分析技术包含单机分析工具、单机编程语言(如Python等)、大数据处理技术(如MapReduce、Spark、Hive等)