1.(多选)MaxCompute在每一个项目空间在创建时,会自动创建admin的角色, 并且为该角色授予了确定的权限。以下权限中不属于admin的有哪些(ABC)。
A:设定项目空间的安全配置
B:修改项目空间的鉴权模型
C:将admin权限指派给其他用户
D:以package方式授权
E:对其他用户或角色进行授权
解析:MaxCompute创建项目成功后,除了项目所有者(Project Owner)外还内置了两个默认的管理角色Super_Administrator和Admin,Admin角色不具有设定项目空间的安全配置的权限,Admin角色不能修改项目空间的鉴权模型,不能Admin权限指派给其他用户。
2.(多选)MaxCompute中支持多种表连接 (join) 的方式,包括哪些(CD)。
A:semi outer join
B:anti outer join
C:full outer join
D:mapjoin
解析:semi outer和anti outer支持left join。full outer join和map join是dataworks支持的join方式 。
3.(多选)Google在大数据发展的过程中做出了非常大的贡献,其中有三篇非常具有影响力的论文,论述了文件系统、非关系型数据库、并行计算框架,分别为(ABC)。
A:GFS
B:BigTable
C:MapReduce
D:HDFS
E:Hbase
F:Spark
解析:google 分别在 2003 年、2004 年以及 2006 年发布了大数据发展影响重大的三篇论文:1、The Google File System,简称 GFS;2、MapReduce;3、Bigtable。分别论述文件系统、非关系型数据库、并行计算框架 。
4.阿里云机器学习PAI支持多种常见的算法,以下属于分类算法的有(AB )。
A:KNN
B:RandomForest
C:K-Means
D:DBSCAN
解析:KNN是近邻分类算法,是通过测量不同特征值之间的距离进行分类的算法;RandomForest算法是随机森林算法,可以用作分类算法;K-Means算法是k均值聚类算法,用作聚类分析算法;DBSCAN算法是密度聚类算法,用作聚类分析。
5.采用分布式的方式存储数据时,要考虑数据复制时一致性的问题,关于一致性如何保证可以采取多种基本原则和设计理念,不包括哪项。(A)
A:LRU
B:CAP
C:ACID
D:BASE
解析:数据复制与一致性基本原则和设计理念包括:CAP、ACID、BASE等,不包括LRU。
6.大数据计算服务MaxCompute是阿里巴巴自主研发的海量数据处理平台,主要服务于批量结构化数据的存储和计算。以下不适合使用大数据计算服务实现的场景是?(A)
A:订单办理
B:数据仓库
C:社交网络分析
D:用户画像
解析:MaxCompute是阿里云大数据离线计算服务组件,适合批量数据开发调度,订单办理属于实时业务,不适合有maxcompute完成。同时maxcompute适用于日志分析,用户画像,数据化运营,数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘
7.使用odpscmd连接到MaxCompute中的某个project后,执行什么命令可以查看表table_b占用空间的大小。(A)
A:desc table_b;
B:size table_b;
C:select size from table_b;
D:show table table_b;
解析:desc是查看表或者视图信息
8.MaxCompute项目空间A设置了项目空间保护: set ProjectProtection=true;并且将项目空间B设置为可信空间: add trustedproject B;无其他任何设置。以下说法中正确的是哪项?(A)
A:项目空间A中的数据可以流至项目空间B
B:项目空间B中的数据可以流至项目空间A
C:项目空间A和项目空间B中的数据可双向流动
D:项目空间B中的数据只可以流至项目空间A
解析:如果当前项目空间处于受保护状态,如果将数据流出的目标空间设置为当前空间的TrustedProject,那么目标项目空间的数据流向将不会被视为触犯ProjectProtection规则。如果多个项目空间之间两两互相设置为TrustedProject,那么这些项目空间就形成了一个TrustedProject Group,数据可以在这个Project Group内流动,但禁止流出到Project Group之外。
9.MaxCompute SQL采用的是类似于SQL的语法,适用于海量数据,实时性要求不高的场合。关于MaxCompute SQL,以下说法正确的包括哪些选项?(BCD)
A:MaxCompute可以等价成一个数据库,可以完成事务及回滚的功能
B:MaxCompute的每个作业准备以及提交都需要花费较长时间,因此不适用对于要求响应时间较短的准实时查询
C:MaxCompute SQL支持多种操作,如含join, where, order by, group by等
D:MaxCompute SQL包括的数据类型有BigInt, Float, Double, String, Date Time, Boolean
解析:MaxCompute并不具备数据库的常见特性,如事务、回滚等。
10.MaxCompute可通过ACL授权来协调多用户操作同一个项目,下列选项中,可以进行ACL授权的对象包括哪些?(ABC)
A:Project
B:Table
C:Resource
D:Procedure
解析:ACL授权对象包括:project table function resource instance
11.(多选题)MaxCompute可以通过ACL授权来协调多用户操作同一个项目,进行授权时需要包括以下 (ABC) 因素。
A:主体
B:客体
C:操作
D:原则
E:限制条件
解析:ACL授权一般涉及到三个要素,即主体(Subject,可以是用户也可以是角色)、客体(Object)和操作(Action)。
12.(多选题)MaxCompute是用于数据分析场景的企业级SaaS模式的云数据仓库,以下选项中哪些连接工具能连接MaxCompute? (ABD)
A:MaxCompute控制台的查询编辑器
B:使用客户端(Odpscmd)连接
C:Dbeaver
D:MaxCompute Studio
解析:https://help.aliyun.com/document_detail/252783.html 查询编辑器(MaxCompute控制台)、使用客户端(odpscmd)连接、DataWorks、MaxCompute Studio
13.Apache Spark核心组件包含:Spark Streaming、Spark SQL、Spark Core、GraphX、MLlib,下列哪个选项是对MLib组件的描述?(D)
A:提供流计算组件
B:是一个用来处理结构化数据的Spark组件
C:基于内存多语言执行的核心引擎
D:Spark机器学习库
解析:Spark的MLlib提供了较丰富的机器学习库,包括分类、回归、协同过滤、聚合,同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块 https://help.aliyun.com/document_detail/441938.html
14.在MapReduce处理过程中,每次计算都要从磁盘读取数据完成计算后又写入磁盘。这体现了MapReduce的哪个缺点?(B)
A:不擅长实时计算
B:磁盘IO开销大
C:延迟高
D:中间结果多
解析:MapReduce的缺点: 1、无法在毫秒或秒级内返回结果; 2、输入数据集是动态的,不能动态变化; 3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下。
15.分类算法是把每一条记录归到对应的类别之中,以下哪个不属于分类算法应用的场景?(D)
A:分析用户是否会购买电脑
B:分析用户是否会点击弹出的广告
C:分析收到的邮件是否为垃圾邮件
D:根据新输入父母的身高来分析其孩子的身高
解析:根据新输入父母的身高来分析其孩子的身高,不属于分类算法
16.下列数据库属于图数据库的是(B)。
A:Redis
B:GraphDB
C:MongoDB
D:Cassandra
解析:图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。 https://help.aliyun.com/document_detail/102799.html?spm=a2c4g.194181.0.i4 云数据库MongoDB版、云数据库Redis版、云数据库Cassandra
17.存储数据的结构可以分为:结构化、非结构化、半结构化。下列选项中,属于非结构化数据的是?(D)。
A:JSON文档
B:XML文档
C:日志文件
D:图片
解析:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。
18.在《大数据时代》一书中,维克托·迈尔-舍恩伯格和肯尼斯可耶提出大数据的“4V特征。“4V特征包含(ACDE)。
A:Volume规模性
B:Vitality动态性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。
19.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop组件HDFS是(C)。
A:工作流引擎
B:资源管理系统
C:分布式文件系统
D:列式数据库
解析:Hadoop分布式文件系统(Hadoop Distributed File System)
20.随着大数据时代的发展,Hadoop生态圈组件越来这丰富。关于Hadoop生态圈组件Ambari是(D)。
A:日志收集
B:数据挖掘库
C:分布式文件系统
D:安装、部署、配置、管理工具
解析:Ambari(安装、部署、配置和管理工具)
21.Hadoop的主要功能中,能完成对海量数据分布式运算的是哪个组件?(D)
A:HDFS
B:DFS
C:RDD
D:MapReduce
解析:MAPREDUCE(分布式运算编程框架)
22.以下选项中不属于MaxCompute特点的是(D)
A:支持多种多种经典的分布式计算模型
B:海量数据存储与计算
C:保障数据安全、降低企业成本
D:处理离线数据不能处理实时数据
解析:MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。 https://help.aliyun.com/document_detail/27800.html
23.智能分析套件Quick Bl是一个专为云上用户是身打造的新—代智能BI服务平台。以下选项属于Quick Bl数据可视化分析平台的优势的是?(ABC)
A:强大的Quick数据引擎
B:快速搭建数据门户
C:智能数据分析和交互
D:安全管控不能设置权限
解析:安全管控设置权限
24.系统日志数据一般是由业务系统在运行过程中产生的,用于记录对数据源的操作,这些操作的记录以(B)的形式进行存储?
A:数据库
B:文本
C:视频
D:弹幕信息
解析:日志数据一般以文本方式存储,以.log结尾的文本文件
25.关系型数据库中,表中的数据是以行和列的形式来存储的,以下选项中关于行与列的特点描述正确的是?(A)
A:同一列数据项具有相同数据类型
B:每一行的列是不固定的
C:行数据的顺序不能任意
D:可以有同名的字段名
解析:
任何一列遵循范式,数据项不可再分,同一列数据具有相同的数据类型。 每列字段的数据格式是固定的
26.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件Flume是(A)的框架。
A:日志收集
B:数据挖掘库
C:分布式文件系统
D:ETL工具
解析:日志收集工具
27.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它包含哪些核心模块? (BCE)
A:Hadoop common公共包
B:Hadoop分布式文件系统(HDFS)
C:Hadoop YARN
D:Hadoop的分布式消息统
E:Hadoop MapReduce
解析:Hadoop的核心组件为:HDFS、MapReduce和Yarn。
28.在Spark Streaming工作机制中,集群管理器是哪个组件?(D)
A:Receiver
B:Executor
C:SparkContext
D:Cluster Manager
解析:集群管理器(cluster manager) 包括Hadoop YARN,Apache Mesos,以及Spark自带的一个简易调度器,叫做独立调度器。
29.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件MapReduce,描述正确的是(C)
A:工作流引擎
B:数据仓库
C:分布式计算框架
D:列式数据库
解析:分布式计算框架:MapReduce
30.数据总线DataHub服务基于阿里云自研的飞天平台,具有高稳定,低成本,(B),高吞吐的特点。
A:高精度
B:高可扩展
C:高集成性
D:高契合
解析:数据总线DataHub服务基于阿里云自研的飞天平台,具有高可用,低延迟,高可扩展,高吞吐的特点。 https://help.aliyun.com/document_detail/47439.html
31.Hadoop底层会维护多个数据副本,当某个节点出现故障后,也不会造成损失。上述文字体现了Hadoop的哪个特点?(C)
A:高效率
B:低成本
C:高可靠
D:高扩展
解析:“当某个节点出现故障后,也不会造成损失”体现了高可靠的特点
32.HBase的服务体系与Hoodoop类似也遵从的是主从结构,以下选项中那个是HBase的主节点(B)
A:HRegionServer
B:HMaster
C:Hregion
D:MemStore
解析:主节点Hmaster
33.大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,下哪一个描述大数据的4V特征是错误的?"(C)
A:Volume规模性
B:Velocity数据变化快
C:Value单位数据价值密度高
D:Variety数据类型多
解析:大数据的4v特征主要包含规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value) Value(价值密度低)
34.在NoSQL类型的数据库中,最适合用于批量处理和即时查询的是什么数据库?(D)
A:关系型数据库
B:文档型数据库
C:图形型数据库
D:列族数据库
解析:列存储:主要适合与批量数据处理和即时查询
35.数据清洗是指检测和纠正错误数据,它清洗的内容包含(ABC)
A:缺失值处理
B:异常值处理
C:数据类型转换
D:精确度检验
解析:数据清洗的内容包括:缺失值处理、数据类型转换、异常值处理以及数据排序
36.智能健康手环数据收集,体现了(D)的数据采集技术的应用。
A:USB数据传输
B:网络数据
C:API接口
D:传感器设备
解析:“智能健康手环”体现了传感器设备的应用
37.Hive的SQL执行流程中Physical Plan Generator的作用是什么?(C)
A:生成查询语句
B:编译SQL语句
C:将逻辑查询计划转化为物理计划
D:分析查询条件
解析:将逻辑查询计划转成物理计划(physical plan generator)
38.在MaxCompute架构中,关于计算引擎说法正确的是(A)
A:MaxCompute能处理离线数据与实时数据是一个流批一体的计算框架
B:MaxCompute计算引擎是依赖Hadoop平台
C:MaxCompute不支持Spark
D:MaxCompute SQL支持事务、索引
解析:链接:https://help.aliyun.com/document_detail/27800.html、 https://help.aliyun.com/document_detail/102357.html 计算引擎 MaxCompute本身具备计算引擎能力。 MaxCompute支持社区原生Spark、完全兼容Spark的API,同时支持多个Spark版本同时运行。 MaxCompute SQL不支持事务、索引。
39.商业上要求个性化推荐算法达到实时推荐的效果,如:某网站刚刚发布的新闻或视频,用户可以在几分钟甚至更短的时间内搜索到。体现了大数据的(C)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Varlety多样性
E:Value价值性
解析:“用户可以在很短时间内搜索到”体现了高速性
40.传感器数据源有哪些应用场景? (AC)
A:手机支付宝运动监测运动步数
B:优酷网播放的视频
C:智能穿戴记录睡眠情况
D:ERP系统的存储数据
解析:传感器数据源以OpenTelemetry为核心,支持各类数据形态、设备/端、数据格式的采集,覆盖面足够“广”。
41.Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。体现了Hadoop的(C)特点
A:高可用
B:高扩展
C:高效率
D:高容错
E:低成本
解析:高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
42.NOSQL指的是非关系型的数据库,以下选项中属于NOSQL数据库分类的有(D)
A:关系对象型
B:层次数据库
C:网状数据库
D:列族数据库
解析:一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。
43.某超市分析销售数据时,发现一个奇怪的规律,尿布与啤酒两件毫无联系的商品却经常出现在同一个购物篮,后来经过调查,发现年轻的父亲在购买尿布的时候,顺便为自己买一瓶啤酒。这体现了哪种数据挖掘算法?(C)
A:回归分析
B:聚类
C:关联规则
D:分类
解析:关联规则挖掘: 一种发现大量数据中事物(特征)之间有趣的关联的技术。 典型应用是购物篮分析:找出顾客购买行为模式、发现交易数据库中不同商品(项)之间的联系
44.使用阿里云DataWorks产品进行数据开发,以下说法正确的是(ABC)。
A:提供SQL格式化
B:智能补齐
C:关键字高亮
D:不提供错误提示
解析:DataWorks的数据开发提供SQL格式化、智能补齐、关键字高亮、错误提示、SQL内部结构等人性化功能。
45.案例:政务数据中台汇聚了自然人、法人组织、城市资产、城市感知、行为事件、地理空间、宏观经济、自然资源、公共服务、电子证照十大主题政务数据,开展模型治理和数据清洗加工,事前以标准事项库为最佳实践优化地方事项库,事中提供统一的标准数据服务,事后对办件库分析得出优化点反过来丰富标准事项库,形成事前事中事后的闭环。政务数据中台基于政务行业数据模型及智能算法,助力各地政府快速构建数据智能应用,提升各地区各部门网上政务服务水平。该案例体现了大数据在(D)领域的应用。
A:电商
B:人工智能
C:金融风险管控
D:政府决策
解析:“提升各地区各部门网上政务服务水平”体现了大数据在政府决策领域的应用
46.传统的文件系统存储文件的方式已无法满足大数据时代海量数据的存储需求,分布式文件系统的出现可以让海量数据的存储更为高效、安全,以下选项中关于分布式文件系统描述正确的是?(A)
A:把文件分布存储到多个计算机节点上,成干上万的计算机节点构成计算机存储集群
B:把文件存储在一台电脑的不同硬盘里面,实现多副本备份
C:一种高吞吐的分布式发布订阅系统
D:分布式文件系统可以把文件存储到一台计算机上
解析:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 Kafka是一种高吞吐量的分布式发布订阅消息系统 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成集群
47.伴随互联网技术的发展,数据呈现出爆炸性增长。数据的存储单位从过去的GB到TB,甚至达到PB.EB。体现出大数据的(A)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:数据的存储单位变化,体现了规模性的特征
48.物联网可以利用射频识别、二维码、智能传感器等感知设备感知获取物体的各类信息。体现了物联网的(A)特点
A:整体感知
B:智能处理
C:可靠传输
D:挖掘分析
解析:整体感知—可以利用射频识别、二维码、智能传感器等感知设备感知获取物体的各类信息。
49.HDFS是开源分布式文件系统,用于(A)。是整个Hadoop生态中的重要组件之一。
A:文件的存储与管理
B:完成计算功能
C:资源调度
D:实时数据处理
解析:HDFS是Hadoop分布式文件系统,它是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础
50.Quick BI可以提供海量数据实时在线分析服务,支持(A)和丰富的可视化效果,帮助用户轻松自如地完成数据分析、业务数据探查、报表制作等工作。
A:拖拽式操作
B:点击式操作
C:后台调用操作
D:语音式操作
解析:Quick BI可以提供海量数据实时在线分析服务,支持拖拽式操作和丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。 https: //www.alibabacloud.com/help/zh/quick-bi/latest/what-is-quick-bi
51.数据采集的目的需要明确,带着问题去搜集信息,使得信息采集更(A)、更有针对性。
A:高效
B:简单
C:复杂
D:一致
解析:明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性
52.年会将至,小丽需要对公司整年的运营数据做可视化汇总展示,为使可视化效果更真更美,小丽需要考虑哪些(ABDEF)因素。
A:遵循美学原则,构图美,布局美,色彩美
B:合理地构建空间感与元素的精致感
C:避免使用动画效果,影响可视化的直观感
D:数据到可视化的直观映射
E:恰当的可视化交互
F:合理的信息密度筛选
解析:动画与过渡效果可以增加可视化结果视图的丰富性与可理解性,增加用户交互的反馈效果,操作自然、连贯;还可以增强重点信息或者整体画面的表现力,吸引用户的关注力,增加印象。 但是,动画与过渡使用不当会带来适得其反的效果
53.下列关于阿里云产品理解错误的是(C)。
A:MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察
B:开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,可以的简单易集成部分开源大数据计算和存储引擎
C:DataV服务期内,若用户开通DataV服务使用权限的账号被阿里云等账号注册的服务方永久禁止登录的,DataV服务的使用仍然可以使用
D:DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台
解析:数据可视化DataV是阿里云一款数据可视化应用搭建工具,旨让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。DataV服务期内,若用户开通DataV服务使用权限的账号被阿里云等账号注册的服务方永久禁止登录的,DataV服务的使用也将随之被终止
54.阿里云检索分析服务Elasticsearch是100%兼容开源的分布式检索、分析套件,提供Elasticsearch、Kibana、Logstash、Beats等开源全托管的产品服务能力,那么下列哪项(D)不属于Elastisearch特性。
A:读写分离、存算分离
B:弹性伸缩
C:智能化运维
D:收费的X-Pack高级商业特性
解析:阿里云检索分析服务Elasticsearch是100%兼容开源的分布式检索、分析套件。提供Elasticsearch、Kibana、Logstash、Beats等开源全托管的产品服务能力。为结构化/非结构化数据提供低成本、高性能及可靠性的检索、分析平台级产品服务。具备读写分离、存算分离、弹性伸缩、智能化运维、免费的X-Pack高级商业特性等产品特性。
55.使用Flume采集系统日志数据时,当节点出现故障后,Flume能够日志传送到其他节点上而不会丢失。这体现了Flume的哪个特点?(A)
A:可靠性
B:可扩展性
C:可管理性
D:社区活跃
解析:可靠性好: 当节点出现故障时,日志能够被传送到其他节点上而不会丢失
56.数据采集,又称数据获取,数据采集技术广泛应用在各个领域,采集的数据来源主要包含四个:(ABCD)
A:企业业务数据
B:网络数据
C:系统日志数据
D:传感器数据
E:硬件
解析:企业业务数据、网络数据、系统日志数据、传感器数据
57.关于Kafka的使用场景描述正确的是(C)。
A:Kafka是消息订阅系统,只能做消息转发
B:日志采集场景只能使用Flume工具采集
C:用户活动跟踪场景适合使用kafka框架来解决
D:Kafka是消息订阅系统,不能用于数据采集
解析:Apache Kafka是一个分布式的发布-订阅消息系统,能够支撑海量数据的数据传递。Kafka通常用于运行监控数据。
58.用户可以在极短的时间内搜索到网站新发布的信息,这说明了大数据的(C)。
A:Variety 丰富性
B:Volume 容量
C:Velocity 高速性
D:Veracity 准确性
解析:“用户可以在很短时间内搜索到”体现了高速性特征。
59.大数据有哪些特点?(ABC)
A:体量大
B:来源多样
C:生成极快
D:变化周期慢
解析:大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
60.云计算和大数据有哪些区别?(B)
A:大数据是一种互联网的虚拟资源存贮,云计算总的来说是一种信息资产
B:云计算的价值则是能帮助企业等压缩其成本,起到节约效果。在庞大的数据中挖掘其中有效、有价值的信息这就是大数据的价值
C:大数据的出现在于用户服务需求的增长,及企业处理业务能力的提高,云计算的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长
D:大数据处理的对象是互联网资源和应用,云计算处理的对象是数据
解析:大数据和云计算的区别:
1、首先云计算面对的是互联网资源和应用等,而大数据面对的是数据。
2、云计算则是一种互联网的虚拟资源存贮,而大数据总的来说是一种信息资产。
3、云计算的出现在于用户服务需求的增长,及企业处理业务能力的提高,大数据的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长。
4、云计算注重资源分配,可以大量节约成本,是硬件资源的虚拟化,而大数据在于发掘数据的有效信息,海量数据的高效处理。
61.网络爬虫又称为网络机器人、网络蜘蛛,也可以称它是一种(A)工具
A:从互联网自动提取网页中数据的工具
B:一种病毒软件
C:沉迷于网络有网瘾的人的代称
D:以上都不对
解析:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
62.下面哪一个是属于Spark的分布式图处理框架?(A)
A:GraphX
B:Dremel
C:Impala
D:DStream
解析:Spark的GraphX支持图计算的库,支持丰富的图计算的算子,包括属性算子、结构算子、Join算子和邻居聚合等。 https://help.aliyun.com/document_detail/441938.html
63.通过日志规则设置,可以对业务系统中对用户的哪些数据进行采集?(C)
A:图片和评论
B:音频信息和视频信息
C:用户使用业务系统时操作(如浏览)日志数据以及操作过程中业务系统报错数据
D:数据库数据和文件数据
解析:通过日志采集系统,对日志进行详细的埋点采集,能够获取用户的操作日志、操作时间、以及系统失败等诸多数据信息。
64.数据挖掘中的一种算法类型为聚类,数据挖掘中()是最常用的聚类算法。(C)
A:RNN算法
B:CNN算法
C:K-Means算法
D:FP-Growth算法
解析:K-means 算法是一种最基本的基于距离的划分的聚类算法,为十大数据挖掘算法之一。 RNN和CNN算法则主要用于深度学习领域,而FP-Growth算法则主要用于频繁项集挖掘和关联规则挖掘
65.阿里的“淘宝小贷,通过对贷款客户、供应商、经营信用等全方位的评估,就可以在没有见面情况下给客户放款,这需要在海量的数据中判断客户的信用。在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比。体现了大数据的(E)特征。
A:Volume规模性
B:Veracity的准确性
C:velocity高速性
D:Variety多样性
E:Value价值性
解析:在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比,体现了价值性
66.开源大数据开发平台E-MapReduce (简称EMR),是运行在阿里云平台上的一种 (C)的系统解决方案。
A:大数据集成
B:大数据采集
C:大数据处理
D:大数据挖掘
解析:开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。 https://help.aliyun.com/document_detail/28068.html?spm=a2c4g.113298.0.i7
67.数据采集全面性是指在根据某一需求分析数据时,需要采集的数据(C)、数据 (D),才能准确进行分析。
A:简单精确
B:类型相同
C:量足够多
D:面涉及广
解析:采集的全面性:采集的数据量足够大具有分析价值、数据面足够支撑分析需求。
68.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Parser:将SQL解析为AST(抽象语法树)
69.在数据可视化的设计步骤中,数据核对及处理,属于数据可视化设计的哪一个步骤?(A)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化
解析:数据核对及处理,属于数据准备阶段
70.在大数据开发的流程中,以下哪个选项符合数据挖掘的概念?(B)
A:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
B:从大量的数据中通过算法搜索隐藏于其中信息的过程
C:将异构数据的数据汇集在一起
D:从大量的数据中别除含噪声的数据
解析:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
71.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Parser:将SQL解析为AST(抽象语法树)。
72.数据采集(DAQ)别名是什么?(B)
A:数据存储
B:数据获取
C:数据分析
D:数据库数据
解析:数据采集(DAQ), 又称数据获取。
73.在大数据开发的流程中,数据分析主要是发现隐藏在数据中的价值。下列关于数据分析的概念,描述正确的是?(C)
A:常用的数据分析方法不包括传统的分析算法
B:数据分析主要使用的是机器学习算法
C:数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用
D:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
解析:数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
74.数据采集中,采集的数据分为离线数据和实时数据,其中属于实时数据的有(C)
A:数据库数据T+1采集
B:业务数据每小时采集并分析
C:传感器设备数据通过datahub传输
D:网络数据定时爬取
解析:对采集来说实时数据和采集方式有关,和业务系统生产方式有关; 数据库数据如果是通过binlog等方式实时拉取 业务数据通过实时采集方式入湖也属于实时采集,但是定时或T+1是非实时采集 传感器数据通过实时采集手段实时入湖为实时采集 数据爬取可以是实时也可以定时。
75.随看大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件ZooKeeper,描述正确(A)
A:用于分布式应用的高性能协调服务
B:是一种支持Apache Hadoop集昨的安装、部署、配置和管理的工具
C:是一种用于在HDFS和RDMS之问传输数据的工具
D:是一个基于工作流引整的开源框架,提供对Hadoop、MapReduce和Pig Jobs的任务调度与协调
E:是大数据集日志收集的框架
解析:ZooKeeper 是一个用于分布式应用的高性能协调服务。
76.在数据可视化的设计步骤中,明确业务需求属于数据可视化设计的哪一个步骤?(B)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化
解析:确定数据可视化的主题:根据实际业务需求来确定可视化的目的,做可视化之前要先知道为什么要做。
77.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。以下哪一选项是数据可视化的设计步骤?(B)
A:数据准备一主题确认一图表选择一数据可视化
B:主题确认一数据准备一图表选择一数据可视化
C:主题确认一图表选择一数据准备一数据可视化
D:数据准备一图表选择一主题确认一数据可视化
解析:确定数据可视化的主题; 提炼可视化主题的数据; 根据数据关系确定图表; 进行可视化布局及设计;
78.使用Datav进行数据可视化开发的过程中,需要了解Datav的操作流程,下面那一项属于DataV正确的操作流程?(A)
A:准备工作一创建可视化应用一添加并配置可视化组件一调整组件图层位置一预览并发布可视化应用
B:准备工作一创建可视化应用一调整组件图层位置一添加并配置可视化组件一预览并发布可视化应用
C:添加并配置可视化组件一准备工作一调整组件图层位置一预并发布可视化应用
D:准备工作一调整组件图层位置一创建可视化应用一添加井配置可视化组件一预览并发布可视化应用
解析:https://help.aliyun.com/apsara/enterprise/v_3_16_2_20220708/datav/ase-paas-user-guide/overview-1.html?spm=a2c4g.14484438.10001.12 1、准备工作。 2、创建可视化应用。 3、添加并配置可视化组件。 4、调整组件的图层和位置。 5、预览并发布可视化应用。
79.数据的种类和来源多样化。包活结构化、半结构化和非结构化教据,具休表现为网络日志、音顿.视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。体现了大数据的(D)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:Variety:种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
80.HBase框架是Hadoop生态的一个重要组成部分,主完成海量数据的存储与线上业务的实时查询,HBase框架数据存储依赖以下哪个组件?(B)
A:NTFS
B:HDFS
C:GFS
D:Memory
解析:HBase数据存储依赖于HDFS。
81.阿里云大数据体系中,下列哪个服务是属于数据加工和可视化分析工具?(B)
A:大数据计算服务MaxCompute
B:Quick BI数据可视化分析平台
C:实时计算Flink版
D:云原生数据仓库(分析型数据库) AnalyticDB
解析:阿里云实时计算Flink版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于Apache Flink构建的企业级、高性能实时大数据处理系统。 云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。 Quick BI是一款全场景数据消费式的BI平台,秉承全场景消费数据,让业务决策触手可及的使命,通过智能的数据分析和可视化能力帮助企业构建数据分析系统,您可以使用Quick BI制作漂亮的仪表板、格式复杂的电子表格、酷炫的大屏、有分析思路的数据门户,也可以将报表集成在您的业务流程中,并且通过邮件、钉钉、企业微信等分享给您的同事和合作伙伴。 https://help.aliyun.com/document_detail/33813.html
82.阿里云的云计算提供了多种服务模式,其中平台层使用的是(B)
A:Saas
B:Paas
C:laas
D:全部本地布署
解析:PAAS平台即(Platform-as-a-Service:平台即服务)
83.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、Logical Optimizer。Physical Plan Generator、Physical Plan Optimizer。其中步骤Logical Plan Generator的作用是?(C)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Logical Plan Generator:将查询块转换成逻辑查询计划
84.关于大数据的定义描述错误的是下列哪个选项?(D)
A:从数据大小的角度Mckinsey(麦肯锡公司)认为“大数据是指 大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集 。”
B:从架构的角度NIST(美国国家标准与技术研究院)认为“大数据是指那些传统数据架构无法有效地处理的新数据集。”
C:从多家机构对大数据描述中找出共同点:大数据主要是指具有体量大、来源 多样、生成极快、且多变等特征,并且难以用传统数据体系结构有效处理的 大量数据集的数据。
D:大数据是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学
解析:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。既不是一种技术,也不是一种产品,而是一种现象。而大数据是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学是描述人工智能的。
85.数据可视化大屏是当前可视化领域的一项热门应用,通常可以分为信息展示类、数据分析类及监控预警类,下列关于可视化大屏描述错误的是(B)。
A:可视化大屏是一种非常有效的数据可视化工具
B:利用DATa V制作的可视化大屏不支持多块物理屏拼接显示
C:可视化大屏是以数据可视化的方式在一个或多个LED大屏幕上显示业务的一些关键指标,以大屏幕为主要显示载体的数据可视化设计
D:可视化大屏作为传递信息的有效手段,在各个行业中发挥着重要作用
解析:DataV支持多屏拼接,针对拼接大屏端的展示做了分辨率优化,能够适配非常规拼接情况下的分辨率优化
86.聚类算法与分类算法是数据挖掘算法中极其容易混淆的两种算法,两者之间,存在一定的相似性,同时也存在明显的差异性。下面关于聚类和分类的说法正确的是?(D)
A:聚类有标签,分类无标签
B:聚类有目标,分类无目标
C:聚类有标签,分类有标签
D:聚类无标签,分类有标签
解析:聚类无标签是无监督学习,分类有标签是监督学习,聚类的目标是将数据分组,而分类的目标是将数据分类。
87.以下哪个选项符合属于分布式文件系统,且适合运行在通用硬件上?(B)
A:NFS
B:HDFS
C:GlusterFS
D:Ceph
解析:HDFS(Hadoop Distributed File System) Hadoop分布式文件系统,适合运行在通用硬件上做分布式存储和计算
88.云计算和大数据的关系密不可分,关于云计算和大数据的区别,描述正确的是?(D)
A:大数据处理的对象是互联网资源和应用,云计算处理的对象是数据
B:大数据是一种互联网的虚拟资源存贮,云计算总的来说是一种信息资产
C:大数据的出现在于用户服务需求的增长,及企业处理业务能力的提高,云计算的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长
D:云计算的价值则是能帮助企业等压缩其成本,起到节约效果。在庞大的数据中挖掘其中有效、有价值的信息这就是大数据的价值
解析:大数据和云计算的区别: 1、首先云计算面对的是互联网资源和应用等,而大数据面对的是数据。 2、云计算则是一种互联网的虚拟资源存贮,而大数据总的来说是一种信息资产。 3、云计算的出现在于用户服务需求的增长,及企业处理业务能力的提高,大数据的出现在于用户和社会各行各业所产生大的数据呈现几何倍数的增长。 4、云计算注重资源分配,可以大量节约成本,是硬件资源的虚拟化,而大数据在于发掘数据的有效信息,海量数据的高效处理。
89.关系数据库(Relational Database)是数据按关系模型来组织数据的数据库。主要用于存储(A)。
A:结构化数据
B:半结构化数据
C:非结构化数据
D:结构化数据和非结构化数据
解析:关系型数据库存储的是结构化数据
90.数据可视化可以通过图表显示多维展示,它能体现出(D)优势?
A:图形表现
B:分析视角
C:数据清晰
D:多维展示
解析:"通过图表更容易对数据进行分类、排序显示"体现了多维展示的特点
91.根据颜色的不同来反映不同区域的降水量,这是数据可视化在什么学科上的应用?(C)
A:区域地理学
B:可视性分析学
C:空间可视化
D:信息学
解析:“根据颜色不同来反映不同区域的降水量”体现了空间可视化
92.下列关于HDFS的描述,正确的有?(A)
A:Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)分布式文件系统,完成数据分布式存储,具有高容错性和可扩展性的特点
B:是一种通过网络实现文件在多台主机上进行存储的文件系统,但数据安全性不能得到保证
C:分布式文件系统都是采用“客户机/服务器"一主多从
D:谷歌开发了分布式文件系统HDFS
解析:HDFS(Hadoop Distributed File System) Hadoop分布式文件系统,适合运行在通用硬件上做分布式存储和计算 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。 GFS(Google File System):Google公司为满足公司需求而开发的基于Linux的可扩展的分布式文件系统
93.下列选项中符合数据挖掘概念的是(D)?
A:将异构数据源的数据汇集在一起
B:从大量的数据中剔除含噪声的数据
C:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
D:从大量的数据中通过算法搜索隐藏于其中信息的过程
解析:数据分析和数据挖掘本质上来说其实并不冲突,两者可以说的上是相辅相成的。 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
94.Sqoop是Hadoop生态圈组件中的什么?(C)
A:数据分析工具
B:数据库引擎
C:ETL工具
D:BI工具
解析:Sqoop是一款apache旗下的“hadoop和关系型数据库数据传输”工具。
95.HBase是一个分布式的、面向列的开源数据库,源于( A )的一篇论文《BigTable:一个结构化数据的分布式存储系统》
A:Google
B:Oracle
C:Apache
D:Microsoft
解析:HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》
96.关于网络爬虫爬取网页的步骤,包含如下哪些选项?(ABC)
A:获报网页
B:提取信息
C:保存数据
D:手动提取
解析:获取网页、解析网页以及存储数据
97.Hadoop是当前最流行的大数据分布式基架构,它提供了许多与大数据相关的核心功能,并支持许多核心项目。下列选项中,属于Hadoop核心组件的是?(D)
A:Ambari(安装、部署、配置、管理工具)
B:Oozle(作业流调度系统)
C:Hive数据仓库
D:MapReduce分布式计算框架
解析:Hadoop的核心组件为:HDFS、MapReduce和Yarn。
98.在Spark 架构中,负责SQL解析的组件是?(A)
A:SQL Parser
B:Cache Mgr
C:catalyst
D:Execution
解析:SparkSqlParser: SparkSQL的sqlParser,将SQL解析为LogicalPlan
99.网络爬虫是一种通过既定规则,自动抓取网页信息的程序,它的常见分类有(ABCD)。
A:通用网络爬虫
B:聚集网络爬虫
C:增量式网络爬虫
D:深层网络爬虫
E:随机型爬虫
解析:网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
100.阿里云实时数仓Hologres属于阿里云大数据产品体系中的哪一类产品?(A)
A:大数据计算与分析
B:大数据工具与服务
C:大数据分析与可视化
D:智能搜索与推荐
解析:链接:https://help.aliyun.com/document_detail/113648.html Hologres。致力于高性能、高可靠、低成本、可扩展的实时计算引擎研发,为用户提供海量数据的实时数据仓库解决方案和亚秒级交互式查询服务,广泛应用在实时数据中台建设、精细化分析、自助式分析、营销画像、人群圈选、实时风控等场景。
101.阿里云DataWorks是数据上云下云的枢纽,致力于提供复杂网络环境下、丰富的 (B) 之间高速稳定的数据移动及同步能力。
A:关系型数据库
B:异构数据源
C:NosQL
D:非结构化存储
解析:DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。 https://help.aliyun.com/document_detail/113298.html?spm=a2c4g.464901.0.i5
102.Logstash是一款开源的数据收集引擎,具有实时管道处理能力。Logslash数据处理流程由几部分组成。(ABC)
A:Input
B:Filter
C:Output
D:Kibana
解析:logstash数据处理过程包括三个部分:input、filter、output
103.阿里云的云计算提供了多种服务模式,其中基础设施使用的是(C)
A:SaaS
B:Paas
C:laas
D:全部本地布署
解析:IaaS: Infrastructure-as-a-Service(基础设施即服务)
104.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下关于清洗内容的描述正确的是(ABC)
A:缺失值处理是由于调查、编码和录入的误差,数据中可能存在一些缺失值,需要给予适当的处理
B:异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据
C:数据类型转换是指数据类型不一致,影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,并做统一处理
D:数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列),只需要删除所有重复行
解析:缺失值处理是指由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理; 异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据; 数据类型转换是指数据类型往往会影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,在数据清洗的时候就需要对二者的数据类型进行统一处理。 重复值处理是指重复值的存在会影响数据分析和挖掘结果的准确性,所以,在数据分析和建模之前需要进行数据重复性检验,如果存在重复值,还需要进行重复值的删除。
105.在大数据生态体系的数据处理中,有两种计算引擎MapReduce与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎说法正确的是?(BD)
A:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
B:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
C:MapReduce跟Spark相比,处理速度更快
D:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算
解析:MapReduce计算框架是基于磁盘的,做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算,IO开销大,效率低,但适用于大数据量 Spark计算框架是基于内存的,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取,基于内存计算IO开销小,内存消耗大,适用于相对小数据量,计算效率要求较高的场景
106.Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的(B)领域经典算法的实现,旨在帮助开发人员更加方便快捷的实现算法,创建只能应用程序。
A:人工智能
B:机器学习
C:云计算
D:数据分析
解析:Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
107.临近年终,小明在制作年终总结PPT时,发现表格列属性由月份、行属性计划销售额和实际销售额组成不够美观,更不够直观,如果你是小明,你会怎么做(A)。
A:插入柱状图
B:插入散点图
C:插入直方图
D:插入瀑布图
解析:数据可视化常用图表,更直观的体现数据属性,柱状图是的主要作用是将多个或者2个以上的在同一条件下,进行数据值的比较以此来判断多个数据值哪些数据值相对比较大或相对比较小
108.阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和(D)
A:画布
B:媒体
C:素材
D:分布
解析:阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和分布,每个组件都有自己的适用场景和独特优势
109.下列哪一项(D)不是机器学习深度学习领域常用的框架。
A:tensorflow
B:torch
C:sklearn
D:jupyter
解析:jupyter不是框架,是交互式python环境
110.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的(A)作用?
A:弹性能力与扩展型
B:集成AI能力
C:支持流式采集和近实时分析
D:数据存储能力
解析:
https://help.aliyun.com/document_detail/27800.html 弹性能力与扩展性 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。 支持实时根据业务峰谷变化分配资源。
111.HBase依赖 ( A ) 提供消息通信机制,在Master和RegionServers之间协调、通信和共享状态。
A:Zookeeper
B:Socket
C:TCP/IP
D:ActiveMQ
解析:在HBase中,ZooKeeper在 Masters 和 RegionServers 之间协调、通信和共享状态。
112.使用阿里云DataWorks进行实时数据同步时,在单表增量实时数据同步配置的步骤是(A)。
A:创建单表实时同步节点一配置资源组一配置单表实时同步任务一提交并发布实时同步任务
B:创建单表实时同步节点一配置单表实时同步任务一配置资源组一提交并发布实时同步任务
C:创建单表实时同步节点一配置资源组一提交并发布实时同步任务一配置单表实时同步任务
D:创建单表实时同步节点一提交并发布实时同步任务一配置资源组一配置单表实时同步任务
解析:https://help.aliyun.com/document_detail/203628.html
操作流程
步骤一:创建单表实时同步节点
步骤二:配置资源组
步骤三:配置单表实时同步任务
步骤四:提交并发布实时同步任务
113.Flume是一个分布式、高可靠、高可用的服务,它是用于分布式的什么框架?(B)
A:网络数据收集
B:日志收集
C:企业业务数据收集
D:传感器数据收集
解析:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。
114.K-Means是典型的基于划分的聚类算法,下列描述基于划分的概念正确的是?(C)
A:一种基于网格的具有多分辨率的聚类方法
B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类
D:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
解析:基于划分的聚类算法通过构造一个迭代过程 来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。
115.下列关于Hadoop生态组件Flume的概念,说法正确的是?(A)
A:是Apache下的一个项目,支持在日志系统中定制各类数据发送方,用于收集数据
B:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
C:是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
D:是一个用于在Hadoop和关系数据库之间传输数据的工具
解析:ZooKeeper 是一个用于分布式应用的高性能协调服务
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
Sqoop是一个用于在Hadoop和关系数据库之间传输数据的工具
Flume最早是Cloudera提供的日志收集系统,是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据。
116.( C )指对本地资源库中,已下载的网页数据进行增量式更新,运行过程中只爬行新产生页面或内容发生变化的网页,需要对网页的重要性进行排序。
A:通用网络爬虫
B:聚集网络爬虫
C:增量式网络爬虫
D:深层网络爬虫
解析:增量式网终爬虫(Incremental Web Crawler)是指对已下载的网页采取增量式更新,只抓取新产生或者已经发生变化的网页的网络爬虫。
117.Kafka是一种高吞吐量的分布式发布订阅消息系统,一般对日志数据和实时数据进行处理,它的优点是(D)。
A:支持一个生产者
B:支持一个消费者
C:不支持分布式
D:支持broker的横向扩展
解析:Kafka 优点: 支持多个生产者和消费者; 支持broker的横向拓展;
118.在Hadoop中,HDFS组件的DataNode节点有什么作用?(B)
A:支配其它节点
B:保存数据的作用
C:管理其它节点
D:降低数据丢失的风险
解析:文件的各个 block 的具体存储管理由 datanode 节点承担。
119.下列关于回归分析的用法,描述不正确的是?(D)
A:在大数据分析中,回归分析常用于预测分析,主要研究自变量与因变量的关系
B:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
C:回归分析就是通过一定变量或一些变量的变化解释另一变量的变化
D:按因变量的多少,回归分析都只有简单回归分析
解析:按照因变量的多少,可分为简单回归分析和多重回归分析。
120.为大数据提供了技术基础,大数据为其提供用武之地。上述是哪项技术?(C)
A:内存计算机
B:网络计算机
C:云计算
D:并行计算
解析:云计算为大数据提供了技术基础,大数据为云计算提供了用武之地。
121.数据清洗(Data Cleaning)是用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。下列选项中,对数据清洗描述正确的是(ABC)
A:数据清洗可以检测表中的不准确或损坏的记录
B:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据
C:数据清洗时检测出不正确的数据可以替换,修改或删除
D:数据清洗不可以纠正脏数据
解析:数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。
122.Flink在大数据处理与分析中的作用不包含(B)?
A:实时推荐
B:实时存储
C:实时反作弊
D:实时IOT数据分析
解析:Flink的功能有: 实时数仓、实时ETL、实时反作弊、 实时监测、实施推荐、实时IoT数据分析 ,Flink是实时处理引擎,不进行数据存储
123.数据采集是指使用技术手段进行(A)?
A:数据收集
B:数据存储
C:数据分析
D:数据挖掘
解析:数据采集是指对目标领域、场景的特定原始数据进行采集的过程。
124.Hadoop在底层维护多个数据副本,使应用运行稳定运作。这是Hadoop的(C)特点。
A:安全性
B:易扩展
C:高可靠
D:高效率
解析:“使应用运行稳定运作”体现了高可靠的特点
125.以下属于分布式文件系统的是哪个文件系统?(B)
A:FAT32
B:GFS
C:NTFS
D:EXT6
解析:GFS(Google File System)是Google公司专为满足公司需求而开发的基于Linux的可扩展的分布式文件系统,用于大型的、分布式的、对大数据进行访问和应用,成本低,应用于廉价的普通硬件上。
126.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别(D)
A:Volume规模性
B:Velocity高速性
C:Variety多样性
D:Veracity准确性
E:Value价值性
解析:大数据的 5v 特征包括容量(Volume)、速率(Velocity)、多样性(Variety)和真实性(Veracity)以及价值(Value),区别于4V(容量,速率,多样性,价值),多了一项(Veracity)准确性。
127.HDFS主要采用主从结构模型,主节点负责数据请求与元数据的保存,以下选项中哪个节点负责数据存储?(C)
A:NameNode
B:Jobtracker
C:DataNode
D:SecondaryNameNode
解析:DataNode 负责存储数据的,提供真实文件数据的存储服务。
128.下列选项中属于阿里云数据可视化产品是?(AB)
A:Quick BI
B:DataV
C:DataX
D:Data Integration
解析:数据可视化DataV是阿里云一款数据可视化应用搭建工具; Quick BI通过智能的数据分析和可视化能力帮助企业构建数据分析系统 数据集成(Data Integration) DataX是异构数据源离线同步的工具
129.数据采集的技术有许多种,下列选项中不是采集技术的是(D)
A:Sqoop采集技术
B:Flume采集技术
C:网络爬虫技术
D:MapReduce处理技术
解析:大数据的并行处理利器——MapReduce
130.随着时代的发展,业务中需要保存的数据量成倍增长,传统的文件系统已不能满足业务发展的需要,而分布式文件系统的出现可以解决以下哪个向题?(A)
A:存储扩展
B:数据压缩
C:文件查找
D:文件命名
解析:存储扩展
131.案例:当用户在国外某地进行一笔5万块的线上交易,从风控模型库中读取相应的风控模型集合中对用户的额度和交易地点进行判断,从风控数据库中拿到的用户征信信息中,用户的额度为10万,但是上次交易发生在1个小时前,且地点为国内,那么额度判断PASS,交易地点判断FAIL,那么此次交易有盗刷或者欺诈嫌疑,系统则判定此次交易失败。该案例体现了大数据在( C )领域的应用。
A:电商
B:人工智能
C:金融风险管控
D:政府决策
解析:体现了在金融风险管控的应用
132.在数据预处理过程中,数据集成的方法有三种,以下正确的是(ACD)
A:联邦数据库
B:数据删除
C:中介者
D:数据仓库
解析:数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。
133.关于HDFS的特性,下列说法错误的是?(D)
A:数据分布式存储
B:强大的跨平台兼容性
C:兼客廉价的硬件设备
D:多次写入、多次读取
解析:HDFS的模式是一次写入多次读取
134.数据分析与数据挖掘的概念是容易被混淆。下列选项中,正确描述数据分析与数据挖掘之间的关系的是?(ABC)
A:数据分析强调结果,数据挖掘强调过程
B:数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据末知的模式与规律
C:数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据
D:数据分析是输出模型或规则,根据模型应用。数据挖掘是得到己知的指标预测值,根据预测值跟业务结合,发挥数据价值
解析:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。 数据挖掘输出模型或规则,并且可相应得到模型得分或标签 数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据未知的模式与规律 数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据
135.网络爬虫由控制节点、爬虫结点、资源库构成,以下关于网络爬虫特性的描述正确的有(ABD)。
A:网络爬虫中可以有多个控制节点
B:每个控制节点下可以有多个爬虫节点
C:多个控制节点间不允许相互通信
D:多个爬虫节点间可以进行互相通信
解析:网络爬虫中可以有多个控制节点; 每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信; 控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。
136.MapReduce是一个分布式运算程序的编程框架,下面对MapReduce描述正确的是(ABD)。
A:MapReduce的核心为Map函数和Reduce函数
B:MapReduce用于大规模数据集的并行运算
C:MapReduce不需要应用开发者编写程序来实现功能
D:MapReduce设计理念就是“计算向数据靠拢”
解析:MapReduce 主要是依靠开发者通过编程来实现功能的
137.使用QuickBl进行数据可视化开发的过程中,需要了解Quick Bl的操作流程,下面哪一项属于Quick Bl正确的操作流程?(C)
A:准备工作-数据建模一连接数据源一数据可视化分析一发布共享
B:准备工作一连接数据源一数据可视化分析一数据建模一发布共享
C:准备工作一连接数据源-数据建模一数据可视化分析一发布共享
D:准备工作一数据可视化分析-连接数据源-数据建模一发布共享
解析:
https://help.aliyun.com/document_detail/161417.html?spm=a2c4g.33813.0.i5
步骤一:连接数据源
步骤二:数据建模
步骤三:数据可视化分析
步骤四:发布共享
138.在进行数据预处理时,经常会遇到异常值,下列选项中处理异常值的方法有(ABC)
A:删除含有异常值的记录
B:将异常值视为缺失值,交给缺失值处理方法类处理如插补的方法
C:用平均值来修正
D:所有异常值不能删除
解析:异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。
139.图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势?( B )
A:传播速度快
B:数据更直观
C:多维展示
D:容易记忆
解析:数据更直观:图比文本或表格更加直观呈现
140.在进行数据清洗时,每个步骤有对应的注意事项。以下选项中,步骤和注意事项匹配的有 (ABCE)。
A:数据清洗时先处理缺失值、异常值和数据类型转换,最后进行重复值的处理
B:对缺失值和异常值处理时,一般根据业务需求进行填充,进行统计值填充、前/后值填充、零值填充
C:在数据清洗之前,要明确表的结构和发现需要处理的值,方便数据清洗的更彻底
D:数据量大且异常数据量也较大时,可直接删除异常数据:数据量小,则每个数据都可能影响分析结果,需要认真去对异常数据进行处理
E:确保数据表的每列都进行清洗
解析:如果总数据量较大,而异常的数据(包括缺失值和异常值)的量较少时可以选择直接删除处理,因为这并不太会影响到最终的分析结果;但是如果总数据量较小,则每个数据都可能影响这分析的结果,这时候就需要费心思去对数据进行处理(可能需要通过其他的关联表去找到想过数据进行填充)
141.Databricks数据洞察(简称DDI)是基于Apache Spark的全托管大数据分析平台。下列选项中,属于Databricks数据洞察特点的是?(ABC)
A:高效稳定
B:批流一体
C:协同分析
D:数据隔离
解析:https://help.aliyun.com/document_detail/169125.html 高效稳定 产品内核使用Databricks商业版的Runtime和Delta Lake。与社区版Spark和Delta Lake相比,在功能和性能上都有明显的优势。 批流一体 在实际的业务场景中,往往既有批处理的需求,也有流式计算的需求。您不仅需要清楚地划分批流两种作业,还需要分别进行开发。Databricks Delta Lake可以使用一套API接口同时处理批作业和流作业,达到事半功倍的效果。 协同分析 数据洞察Notebook为大数据分析提供了可视化、交互式的平台。用户可以在Notebook中编辑、执行、查看Spark作业。不同角色的用户可以共享集群资源和Notebook内容,协同合作。 数据共享 Databricks数据洞察采用数据湖分析的架构设计,使用阿里云对象存储服务(OSS)为核心存储,直接读取分析OSS的数据,无需对数据做二次迁移,实现数据在多引擎之间的共享。
142.阿里云机器学习PAI平台致力于让公司内部开发者更高效、简洁、标准地使用人工智能AI(Artificial Intelligence)技术,下列关于PAI平台描述不正确的是(B)。
A:PAI底层支持多种计算框架,如流式计算框架Flink,深度学习框架TensorFlow
B:PAI平台服务不支持组合使用
C:PAI平台提供可视化建模和分布式训练PAI-Designer服务
D:PAI平台可以对接DataWorks,支持SQL、UDF、UDAF、MR等多种数据处理方式,灵活性高
解析:支持一站式机器学习,只要准备好训练数据(存放到OSS或MaxCompute中),所有建模工作(包括数据上传、数据预处理、特征工程、模型训练、模型评估和模型发布至离线或在线环境)都可以通过PAI实现
143."手淘"已经成为淘宝网最大的流量入,每天服务数亿用户,成交量仅次于搜索,成为了淘宝网成交量第二大入口。上述案例体现了大数据在什么领域的应用。(A)
A:电商
B:人工智能
C:金融风股管控
D:政府决策
解析:手淘已经成为淘宝网最大的流量入口,每天服务数亿用户,成交量仅次于搜索,成为了淘宝网成交量第二大入口,该案例体现了大数据在电商领域的应用。
144.聚类将一组数据根据数据的相似性和(B)分成几个类别,同一类别的数据相似性很大,不同类之间的数据关联性很低。
A:连续性
B:差异性
C:间断性
D:类推性
解析:聚类将一组数据根据数据的相似性和差异性分成几个类别,同一类别的数据相似性很大,不同类之间的数据关联性很低。
145.在大数据分析处理中,批处理计算是最常使用的一种方式,其解决了大批量数据的批量计算问题,其代表的产品( A )已经被广泛用于大数据应用中。
A:MapReduce
B:Storm
C:Pregel
D:Hive
解析:批处理计算:批处理计算是最常见的一类数据处理方式,主要用于对大规模数据进行批量的处理,其代表产品有MapReduce和Spark等
146.流处理系统与传统数据处理系统有什么区别?( D )
A:传统数据处理系统,处理的是存储在硬盘上的静态数据
B:流处理系统需要自主查询
C:传统数据处理系统是自主推送数据
D:流处理系统处理实时数据
解析:流处理系统和传统的数据处理系统的区别:
1、流处理系统处理的是实时的数据,而传统的数据处理系统处理的是预先存储好的静态数据。
2、用户通过流处理系统获取的一般是实时结果,而传统的数据处理方式获取的都是过去某一个历史时刻的快照。
3、流处理系统不需要用户主动发出查询,它会实时地把生成的查询结果不断的推动给用户。
147.在MapReduce处理过程中,每次计算完成后结果都写入磁盘,造成了什么问题?( A )
A:磁盘IO开销大
B:无法动态变化
C:延迟时间长
D:无法返回结果
解析:MapReduce的缺点:
1、无法在毫秒或秒级内返回结果;
2、输入数据集是动态的,不能动态变化;
3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下
148.通过简单而直观的数据可视化图表;可以让观察者快速获取信息,这体现了数据可视化的哪个优势?(A)
A:数据更直观
B:更易引起关注
C:提高信息交流效率
D:改善数据共享
解析:“能够快速获取信息”说明了数据更直观。
149.下列属于NoSQL数据库的分类有( C )?
A:层次数据库
B:关系对象型
C:列族数据库
D:网状数据库
解析:一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。
150.下列选项中,哪个是NoSQL分类中常见的列族式数据库?( C )
A:MongoDB
B:Elasticsearch
C:HBase
D:Memcached
解析:常见的列族型数据库有Cassandra、HBase、Hypertable等。
151.以下选项中不属于关系型数据库的有( D )
A:RDS MySQL
B:SysBase
C:DB2
D:MongoDB
解析:MongoDB是面向文档的NoSQL(非关系型)数据库,它的数据结构由字段(Field)和值(Value)组成,类似于JSON对象 https://help.aliyun.com/document_detail/26558.html
152.下列对Hadoop生态组件Mahout,描述正确的是?( C )
A:可扩展的分布式数据,支持大表的结构化数据存储
B:数据仓库基础架构,提供数据汇总和命令行即席查询功能
C:可扩展的机器学习和数据挖掘库
D:用于并行计算的高级数据流语言和执行框架
解析:Mahout:可扩展的机器学习和数据挖掘库。 HBase:一个可扩展的分布式数据库,支持大表的结构化数据存储。 Pig:一个支持并行计算的高级的数据流语言和执行框架。 Hive:一个建立在 Hadoop 上的数据仓库基础构架。
153.数据视化分析平台的四大优势中,提供对话式智能机器人,满足智能数据洞察和数据预警需求,符合下列哪种优势?( C )
A:强大的Quick数据引擎
B:快速搭建数据门户
C:智能数据分析和交互
D:安全管控数据权限
解析:智能数据分析和交互:提供对话式智能机器人,满足智能数据洞察和数据预警需求
154.关于大数据平台中海量数据的存储,以下说法正确的是?(C)
A:Hadoop的分布式存储技术是GFS组件完成
B:分布式存储要求底层有多台高性能存储服务器
C:分布式存储通过数据冗余存储,提高了数据的安全性
D:分布式存储方式无法存储传统的结构化数据
解析:Hadoop的分布式存储技术是HDFS;
155.Hadoop有三个核心组件(HDFS、YARN、MapReduce),其中HDFS的全称是?( B )
A:分布式存储系统
B:Hadoop分布式文件系统
C:密集分布式
D:结构化存储
解析:Hadoop分布式文件系统(HDFS)
156.HBase是面向列、可伸缩的分布式数据库,主要处理什么类型的数据?( A )
A:非结构化与半结构化
B:文档数据
C:视频数据
D:所有数据
解析:HBase 是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌 BigTable 的开源实现,主要用来存储非结构化和半结构化的松散数据
157.Apache spark是专为大规模数据处理而设计的快速通用的计算引擎,下列选项中,哪些是Spark的优势(ABC)
A:开发比较简单,支持多语言开发
B:提供了多个高层次、简洁的API
C:可以通过RDD弹性分布式数据集方式编程,具备容错特征,能在并行计算中高效的进行数据共享,提升计算性能
D:统一采用DAG无向有环图处理模式
解析:Spark提供了多种高层次、简洁的API 有向无环图(Directed Acyclic Graph, DAG) RDD 即弹性分布式数据集(Resilient Distributed DataSet),它具备像MR等数据流模型的容错性, 能在并行计算中高效地进行数据共享进而提升计算性能。
158.数据集成(Data Integration)是阿里云对外提供的安全、低成本、稳定高效、弹性伸缩的数据同步平台,关于数据集成(DataIntegration)的描述,说法错误的是?( C )
A:数据集成的目的是提高分析效率
B:数据集成时可能会出现实体识别、冗余属性识别、元组重复等问题
C:格式相同的数据才能执行数据集成操作
D:数据集成对多个数据源的数据合并,形成一致的数据存储
解析:数据集成是将多个数据源中的数据合并,存放于一个一致的数据存储中。
数据集成过程中的关键问题: 1.实体识别 2.数据冗余和相关分析 3.元组重复 4.数据值冲突检测与处理 5.数据异常值检测
159.Apache Spark核心组件有:Spark Streaming、Spark sQL、Spark Core、GraphX、MLlib,下列哪个选项是对Spark SQL组件的描述? ( B )
A:提供流计算组件
B:是一个用来处理结构化数据的Spark组件
C:基于内存多语言执行的核心引擎
D:是一个分布式图处理框架
E:Spark机器学习库
解析:Spark SQL处理结构化数据
160.Apache Spark是一款常用于大数据工作负载的开源分布式处理系统,关于Spark核心组件的作用,描述错误的是? ( A )
A:spark streaming提供离线计算组件
B:spark SQL是一个用来处理结构化数据的Spark组件
C:Spark Core基于内存多语言执行的核心引擎
D:Graphx是一个分布式图处理框架
解析:Spark Streaming 对实时数据流进行处理和控制
161.使用DataWorks数据集成同步数据流程包含下列( ABCD )选项?
A:配置数据源
B:创建同步任务
C:运行同步任务
D:查看结果
E:数据加工
F:数据运维
解析:DataWorks数据集成同步数据流程:配置数据源-创建同步任务-运行同步任务-查看结果
162.默认情况下HDFS中一个数据块会保存( C )份副本?
A:1份
B:2份
C:3份
D:4份
解析:HDFS中的文件是以数据块的形式划分与存储的,并以副本机制来保证数据存储的安全性,默认情况下HDFS中一个数据块会保存3份副本。
163.MaxCompute与机器学习平台PAI无缝集成,提供强大的机器学习处理能力;用户也可使用熟悉的Spark-ML开展智能分析。使用Python机器学习三方库。上述文字这体现了MaxCompute在大数据处理与分析中的( A )作用?
A:集成AI能力
B:支持流式采集和近实时分析
C:数据存储能力
D:弹性能力与扩展型
解析:https://help.aliyun.com/document_detail/27800.html
集成AI能力与机器学习平台PAI无缝集成,提供强大的机器学习处理能力。
您可以使用熟悉的Spark-ML开展智能分析。
使用Python机器学习三方库。
164.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件HBase是( D )
A:工作流引擎
B:资源管理系统
C:分布式文件系统
D:列式数据库
解析:hbase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。
165.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下对数据进行清洗的手段正确的是( ACD )
A:缺失值填充
B:集成不同的数据库
C:重复值处理
D:异常值和数据类型转换
解析:数据清洗的内容包括: 缺失值处理、异常值处理、 数据类型转换、重复值处理
166.数据清洗有哪些作用?( BCD )
A:数据清洗不可以纠正脏数据
B:数据清洗可以检测表中的不准确或损坏的记录
C:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据
D:数据清洗时检测出不正确的数据可以替换,修改或删除
解析:数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。
广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。
167.Sqoop是一款开源的工具,主要用于在Hadoop与传统的关系型数据库之间进行的操作是?( D )
A:数据清洗
B:数据存储
C:处理日志数据
D:传输数据
解析:链接:https://help.aliyun.com/document_detail/135296.html
Sqoop是一款开源的工具,主要用于在Hadoop和结构化数据存储(例如关系数据库)之间高效传输批量数据。
168.聚类算法与分类算法有哪些区别?( D )
A:聚类有标签,分类无标签
B:聚类无标签,分类无标签
C:聚类有标签,分类有标签
D:聚类无标签,分类有标签
解析:聚类无标签是无监督学习,无标签,分类有标签是监督学习,需要标签
169.Hadoop可以自动保存数据的多个副本,并且可以自动将失败的任务重新分配。上述文本体现了Hadoop的( A )特点。
A:高容错
B:高效率
C:高扩展
D:高可靠
解析:“自动将失败的任务重新分配”体现了高容错的特点
170.HDFS读写数据工作流程中,用于存储Block数据的节点是( A )。
A:DataNode
B:HDFS Client
C:Distributed File System
D:NameNode
解析:1、Client:就是客户端。 文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。 与 NameNode 交互,获取文件的位置信息。 与 DataNode 交互,读取或者写入数据。 Client 提供一些命令来管理 HDFS,比如启动或者关闭HDFS。 Client 可以通过一些命令来访问 HDFS。
2、NameNode:就是 master,它是一个主管、管理者。 管理 HDFS 的名称空间 管理数据块(Block)映射信息 配置副本策略 处理客户端读写请求。
3、DataNode:就是Slave。NameNode 下达命令,DataNode 执行实际的操作。 存储实际的数据块。 执行数据块的读/写操作。
4、Secondary NameNode:并非 NameNode 的热备。当NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 辅助 NameNode,分担其工作量。 定期合并 fsimage和fsedits,并推送给NameNode。 在紧急情况下,可辅助恢复 NameNode。
171.下列哪项属于数据仓库的功能?( C )
A:根据存储的实时数据,生成新的有应用价值的数据
B:永久存储数据,做数据查询
C:是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合
D:历史数据存储备份使用
解析:数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
数据仓库数据当然可以永久存储,但意义不大,一般都具备数据的生命周期 数据仓库主要解决的是离线数据存储 数据仓库具备备份功能,但并不是存储历史数据并进行备份的
172.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop组件YARN是( B )
A:工作流引擎
B:资源管理系统
C:分布式计算框架
D:列式数据库
解析:https://help.aliyun.com/document_detail/440602.html YARN是一个分布式的资源管理系统。YARN是Hadoop系统的核心组件,主要功能包括负责在Hadoop集群中的资源管理,负责对作业进行调度运行以及监控。
173.数据预处理是将原始数据转换为可理解的格式的过程,数据预处理的步骤不包含的选项是?( C )
A:数据集成
B:数据清洗
C:数据脱敏
D:数据归约
E:数据变换
解析:数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。
174.Hadoop是一个由Apache基金会所开发的( B )。用户可以在不了解分布式底层细节的情况下,开发分 布式程序。充分利用集群的威力实现高速运算和存储。
A:分布式存储架构
B:分布式系统基础架构
C:分布式流式架构
D:分布式消息订阅分发的框架
解析:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
175.( A )平台供应商将应用软件统一部署在自己的服务器上,客户可以根据工作实际需求,通过互联网向供应商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用
A:Saas
B:Paas
C:laas
D:Daas
解析:SaaS平台供应商将应用软件统一部署在自己的服务器上,客户可以根据工作实际需求,通过互联网向厂商定购所需的应用软件服务,按定购的服务多少和时间长短向厂商支付费用
176.在关系型数据库中数据主要以行与列的形式存储在关系表中,以下关于关系表描述正确的是?( B )
A:关系表数据是线性存储的
B:关系表可以看成一张二维表格
C:关系表是按Key—Value进行存储的
D:以上都不对
解析:关系表可以看成一张二维表格
177.海量的数据存储是大数据应用中面临的重要问题,下面哪项技术或产品能解决海量数据存储问题( D )
A:阿里云的RDS MysQL数据库
B:单机Redis数据库
C:本地MysQL数据库
D:分布式文件系统
解析:分布式文件存储
178.阿里云大数据体系中,能提供离线和流式数据的接入,完成计算服务的是( C )。
A:Quick BI数据可视化分析平台
B:云原生数据仓库(分析型数据库)AnalyticDB
C:大数据计算服务MaxCompute
D:数据工场DataWorks
解析:MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力,为您提供面向多种计算场景的数据仓库解决方案及分析建模服务。 https://help.aliyun.com/document_detail/27800.html?spm=a2c4g.28068.0.i9
179.Hive是基于Hadoop的一个( B )的工具,用于查询和管理在分布式存储系统中的大型数据集。
A:关系型数据库
B:数据仓库
C:非关系型数据库
D:数据库
解析:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
180.机器学习流程的顺序是: 1. 特征提取 2. 模型训练 3.模型测试 4.数据清洗 ( C )
A:1234
B:2341
C:4123
D:4321
解析:4123是正确的流程
181.PAI-DSW是一款云端机器学习开发IDE,为用户提供交互式编程环境,且DSW提供非持久化的本地存储,那么如何( D )实现持久化存储DSW数据。
A:创建PAI-DSW实例
B:编写持久化本地存储脚本
C:选择File > Export Notebook As... > 目标格式
D:创建NAS或OSS类型数据集,并将数据集挂载到DSW指定的路径
解析:DSW提供非持久化的本地存储,如果需要持久化存储DSW数据,需要创建NAS或OSS类型数据集,并将数据集挂载到DSW指定的路径
182.下列关于阿里云Flink版框架的描述正确的是?( B )
A:阿里云Flink版框架主要处理离线数据,Apache Flink则主要处理实时数据
B:阿里云FIik版是实时计算的一个流式计算引擎
C:Flink可以处理离线数据与实时数据
D:Flink主要实现将企业数据库的业务数据导入到其它在线存储平台上
解析:https://help.aliyun.com/document_detail/110778.html
阿里云实时计算Flink版是一套基于Apache Flink构建的⼀站式实时大数据分析平台,提供端到端亚秒级实时数据分析能力,并通过标准SQL降低业务开发门槛,助力企业向实时化、智能化大数据计算升级转型。
183.下列关于Apache Spark的MLlib组件的描述正确是?( D )
A:基于内存多语言执行的核心引擎
B:提供流计算组件
C:是一个用来处理结构化数据的Spark组件
D:Spark机器学习库
解析:Spark的MLlib提供了较丰富的机器学习库,包括分类、回归、协同过滤、聚合,同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块
链接:https://help.aliyun.com/document_detail/441938.html
184.一些实时数据产生后会有很高价值,但是这些数据的价值会随时间流逝而减少,流计算系统的价值在于业务方可在更短的时间内挖掘实时数据中的价值,并将这种低延迟转化为竞争优势。下列选项中,关于流计算系统,描述正确的是?( ABC )
A:处理大数据的基本要求,如每秒处理几十万条实时数据
B:保证数据较低延迟采集,达到秒级别,甚至是毫秒级别
C:支持大数据的基本架构,能够平滑扩展
D:开发复杂部署比较麻烦
解析:对于一个流计算系统来说,它应达到如下需求: (1)高性能。处理大数据的基本要求,如每秒处理几十万条数据。 (2)海量式。支持TB级甚至是PB级的数据规模。 (3)实时性。必须保证一个较低的时延,达到秒级,甚至是毫秒级别。 (4)分布式。支持大数据的基本架构,必须能够平滑扩展。 (5)易用性。能够快速进行开发和部署。 (6)可靠性。能可靠地处理流数据。
185.HDFS主要采用主从结构模型,分别负责数据请求与数据存储的功能,其中主(master)节点进程名是?( B )
A:DataNode
B:NameNode
C:ResourceManager
D:NodeManager
解析:HDFS的主节点称为 NameNode
186.HDFS主要采用主从结构模型,分别负责数据请求与数据存储的功能,以下选项中关于这种结构描述正确的是?( AC )
A:HDFS采用了Master/Slave结构模型
B:一个HDFS集群包含一个DataNode和若干个NameNode
C:NameNode为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
D:副本默认为1份,副本数可以通过配置文件修改
解析:HDFS采用了主从(Master/Slave)结构模型; 一个HDFS集群包括一个NameNode和若干个DataNode; Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问; 可以通过修改hdfs的配置文件自定义块大小,默认每个块的副本数是3,可以通过修改hdfs的配置文件自定义副本数;
187.MaxCompute支持流式数据实时写入并在数据仓库中开展分析。高性能秒级弹性并发查询,满足近实时分析场景需求。体现了MaxCompute在大数据处理与分析中的什么作用?( C )
A:弹性能力与扩展型
B:集成AI能力
C:支持流式采集和近实时分析
D:数据存储能力
解析:https://help.aliyun.com/document_detail/27800.html 支持流式采集和近实时分析 支持流式数据实时写入并在数据仓库中开展分析。 与云上主要流式服务深度集成,轻松接入各种来源的流式数据。 支持高性能秒级弹性并发查询,满足近实时分析场景需求。
188.云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级解决方案。( A )
A:数据仓库
B:非关系型数据库
C:网络服务
D:数据库建模
解析:云原生大数据计算服务(MaxCompute)是一种快速、完全托管的TB/PB级数据仓库解决方案。
链接:https://help.aliyun.com/product/27797.html
189.Quick BI中,能无缝对接各类数据源,10亿+数据聚合亚秒级响应,体现了其哪种优势?( D )
A:智能数据分析和交互
B:快速搭建数据门户
C:安全管控数据权限
D:强大的Quick数据引擎
解析:链接:https://www.aliyun.com/product/bigdata/bi
强大的Quick数据引擎 内置查询加速引擎支持多种加速模式,亿级数据秒级处理
190.使用Flume采集系统日志数据时,Flume的正确流程是?( A )
A:Web数据源-Source一Channel一Sink一HDFS
B:Web数据源-Sink一Channel一Source-HDFS
C:Web数据源一Channel一Source一Sink一HDFS
D:Web数据源一Source一Sink一Channel一HDFS
解析:Flume架构是souce-channel-sink,可参考:https://flume.apache.org/
191.K-Means是典型的基于划分的聚类算法,下列描述基于划分的概念正确的是?( C )
A:一种基于网格的具有多分辨率的聚类方法
B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类
D:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
解析:PPT-134页。基于划分的聚类算法通过构造一个迭代过程 来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类。
192.在大数据分析处理中,批处理计算是最常使用的一种方式,其解决了大批量数据的批量计算问题,其代表的产品()已经被广泛用于大数据应用中。( A )
A:MapReduce
B:Storm
C:Pregel
D:Hive
解析:批处理计算:批处理计算是最常见的一类数据处理方式,主要用于对大规模数据进行批量的处理,其代表产品有MapReduce和Spark等。
193.下列数据可视化图表类型中,哪个图表不是时间序列型的?( C )
A:量化波形图
B:日历图
C:径向坐标图
D:甘特图
解析:时间序列图表有:折线图、面积图、量化波形图、日历图、甘特图等。
194.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别( D )
A:Volume规模性
B:Velocity高速性
C:Variety多样性
D:Veracity准确性
E:Value价值性
解析:大数据4V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型。
大数据5V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型、Veracity准确性。
195.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。关于Hadoop的基本模块,描述正确的是?( B )
A:Common支持其他模块的通用程序包
B:HDFS是一个分布式文件系统,能够以高吞吐量访问应用中的数据
C:MapReduce是一个作业调度和资源管理框架
D:YARN是一个基于MapReduce的大数据并行处理程序
解析:
Hadoop Common:支持其他 Hadoop 模块的通用程序;
Hadoop 分布式文件系统 (HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问;
Hadoop MapReduce:基于 YARN 的系统,用于并行处理大型数据集;
Hadoop YARN:作业调度和集群资源管理的框架。
196.NOSQL指的是非关系型的数据库,以下选项中属于NOSQL数据库分类的有( D )
A:关系对象型
B:层次数据库
C:网状数据库
D:列族数据库
解析:一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。
197.0penSearch是阿里巴巴自主研发,采用分布式搜索引擎搭建的开发平台,关于OpenSearch的描述,正确的是( ABC )
A:用于开发人员进行搜索业务开发
B:它内置了很多行业的术语,作为用户搜索的关键字,内置的算法可以对查洵结果进行排序
C:提供了标准的API,可以将专业搜索技术的开发简单化,用户对接服务即可
D:不可以在控制台进行搜索,由于分词器分词阿里通过算法进行了优化,提高了搜索的准确性
解析:智能开放搜索OpenSearch是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式商用智能搜索平台,目前为包括淘宝、天猫、菜鸟在内的阿里集团核心搜索业务提供中台服务支持。 开发者可以通过控制台或API与系统交互。 在支持搜索通用能力(分析器、排序)的基础上,重点关注业务查询和写入的吞吐,为开发者提供了大数据集检索场景下,秒级响应、实时查询的能力。 https://help.aliyun.com/document_detail/464898.html?spm=a2c4g.464901.0.0.458848d165oAHo
198.存储数据的结构可以分为: 结构化、非结构化、半结构化。下列选项中,属于半结构化数据的是?( A )
A:JSON文档
B:视频
C:文本
D:图片
解析:半结构化数据有以下5种:1.日志文件;2.XML 文档;3.JSON 文档;4.Email;5.HTML文档。
199.在《大数据时代》一书中,维克托·迈尔-舍恩伯格和肯尼斯可耶提出大数据的“4V特征。“4V特征包含( ACDE )。
A:Volume规模性
B:Vitality动态性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:大数据4V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型。
200.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件HBase的功能,描述正确的是?( A )
A:可扩展的分布式数据库,支持大表的结构化数据存储
B:数据仓库基础架构,提供数据汇总和命令行即席查询功能
C:可扩展的机器学习和数据挖掘库
D:用于并行计算的高级数据流语言和执行框架
解析:HDFS 一个提供高可用的获取应用数据的分布式文件系统。 2)MapReduce 一个并行处理大数据集的编程模型。 3)HBase 一个可扩展的分布式数据库,支持大表的结构化数据存储。是一个建立在 HDFS 之上的,面向列的NoSQL数据库,用于快速读/写大量数据。 4)Hive 一个建立在 Hadoop 上的数据仓库基础构架。
201.阿里云MaxCompute连接工具包含查询编辑器MaxCompute控制台、使用客户端(odpscmd)连接、DataWorks和MaxCompute Studio四种。其中哪一种需要手动安装且使用命令行客户端,适用于任何场景?( B )
A:查询编辑器MaxCompute控制台
B:使用客户端(odpscmd)连接
C:DataWorks连接
D:MaxCompute Studio
解析:https://help.aliyun.com/document_detail/252783.html 使用客户端(odpscmd)连接:手动安装,MaxCompute的命令行客户端,适用于任意场景,使用者可以专注于编写命令完成数据处理。
202.为角色或用户授予某类客体的某种操作权限,下列语法正确的是( AC )?
A:grant CreateTable on Project prj1 to user ALIYUN$test_user@aliyun.com;
B:grant CreateTable on Table prj1 to user ALIYUN$test_user@aliyun.com;
C:grant select on Table table1 to user ALIYUN$test_user@aliyun.com;
D:grant select to user ALIYUN$test_user@aliyun.com on Table table1 ;
image.png
203.DataWorks中ODPS SQL节点开发过程不包含下列( D )选项?
A:选择或新建业务流程
B:新建或选择已有的ODPS SQL节点
C:编写符合语法的SQL代码
D:设置数据过滤条件
解析:DataWorks中ODPS SQL节点开发过程选择或新建业务流程-新建或选择已有的ODPS SQL节点-编写符合语法的SQL代码-当前界面测试运行-配置节点调度信息-保存提交节点任务-发布到生产
204.数据可视化主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形图像处理、计算机视觉及用户界面,通过表达、建模,以及对立体、表面、属性及动画的显示,对数据加以可视化解释,由此可以得出下述解释不正确的是( D )。
A:狭义上讲,数据可视化指的是将数据利用统计图表方式呈现
B:数据可视化包含了数字和非数字
C:可视化就是数据、信息以及科学等等多个领域图示化技术的统称
D:数据可视化重点突出可视化
解析:狭义上的数据可视化指的是将数据用统计图表方式呈现,而信息图形(信息可视化)则是将非数字的信息进行可视化。前者用于传递信息,后者用于表现抽象或复杂的概念、技术和信息。
广义上数据可视化是信息可视化其中一类,因为信息是包含了:数字和非数字的。
从原词的解释来讲:数据可视化重点突出的是”可视化”,而信息可视化则重点是”图示化”。
整体而言:可视化就是数据、信息以及科学等等多个领域图示化技术的统称。
205.默认情况下HDFS中一个数据块会保存( C )份副本?
A:1份
B:2份
C:3份
D:4份
解析:HDFS中的文件是以数据块的形式划分与存储的,并以副本机制来保证数据存储的安全性,默认情况下HDFS中一个数据块会保存3份副本。
206.Sqoop是一款Apache社区的开源软件,它可以在( B )到Hadoop之间进行高效的批量数据传输?
A:文本文件
B:关系数据库
C:NoSQL数据库
D:图形数据库
解析:Sqoop是一款Apache社区的开源软件,支持在Hadoop生态软件和结构化数据集(例如数据库)之间进行高效的批量数据传输。
链接:https://help.aliyun.com/document_detail/451787.html
207.HBase是Hadoop生态的重要组成部分,它依赖哪种技术提供强大的计算能力?( B )
A:HDFS
B:MapReduce
C:Maxdompute
D:Spark
解析:HBase是Hadoop生态重要组成部分,它依赖MapReduce提供强大的计算能力。
208.Mapreduce是一个分布式运算程序的编程框架,关于MapReduce的特点,描述正确的是? (ABC)
A:通过配置Map节点数与增加机器数来扩展计算能力
B:当分配了计算任务的节点失效时,能自动切换到其它节点运行该任务
C:提供了分布式编程接口,易于开发
D:随机处理数据、避免顺序访问数据
解析:由于磁盘的顺序访问要远比随机访问快得多,因此MapReduce主要设计为面向顺序式大规模数据的磁盘访问处理。
209.下列选项中,关于数据可视化图表类型,不属于局部整体型的是?( C )
A:沃洛诺伊图
B:百分比堆积面积图
C:散点直线图
D:马赛克图
解析:局部整体图表有: 饼图、圆环图、扇形图、百分比堆积面积图、马赛克图、旭日图、沃洛诺伊图、华夫饼图等等。
https://blog.csdn.net/hezuijiudexiaobai/article/details/117739652
210.下列对公有云、私有云、混合云的概念及作用描述正确的是?( ABC )
A:公有云是由云服务提供商控制,用于云服务用户和资源的云部署模式
B:私有云是由云服务客户控制,用于单一云服务用户和资源专用的云部署模式。部署在企业内部,由企业内部管理,保证了网络的安全
C:混合云是由云服务提供商提供的多种本地资源的组合,但也可以包含多种不带有本地组件的云平台和云服务
D:公有云采用服务租用模式,私有云必须由用户一次性投入
解析:公有云是由云服务提供商控制,用于云服务用户和资源的云部署模式 混合云是由云服务提供商提供的多种本地资源的组合,但也可以包含多种不带有本地组件的云平台和云服务 私有云是由云服务客户控制,用于单一云服务用户和资源专用的云部署模式。部署在企业内部,由企业内部管理,保证了网络的安全
211.“数据可视化"是由( A )、信息可视化和可视分析学三个学科构成。
A:科学可视化
B:文本可视化
C:网络可视化
D:空间可视化
解析:科学可视化;信息可视化;可视分析学。
212.在阿里云大数据采集与预处理中,使用DataWorks数据集成时,支持的方式有( ABC )。
A:离线同步
B:实时同步
C:离线全增量同步
D:不支持实时全增量的
解析:链接:https://help.aliyun.com/document_detail/113298.html DataWorks数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步。
213.数据可视化DataV是阿里云一款数据可视化应用搭建工具。DataV数据可视化产品的使用场景包含( ABCD )
A:政务系统
B:零售客户分析
C:交通运输
D:能源动力
E:以上都未应用
解析:链接:https: //developer.aliyun.com/article/1093236?spm=5176.14791968.sslink.1.5e51a0fasmsOp3 使用场景 偏向商业分析:零售客户分析、互联网运营分析和企业经营分析等 全行业应用:政务系统、交通运输、能源动力、公安消防、制造物流、零售批发、货币金融等
214.数据可视化可以通过图表更容易对数据进行分类、排序显示,这说明数据可视化有( A )优势?
A:多维展示
B:容易记忆
C:传播速度快
D:数据更直观
解析:"通过图表更容易对数据进行分类、排序显示"体现了多维展示的特点
215.使用各种智能技术,对感知和传送到的数据、信息进行分析处理,实现监测与控制的智能化,体现了物联网的( B )特点。
A:可靠传输
B:智能处理
C:整体感知
D:挖掘分析
解析:智能处理—使用各种智能技术,对感知和传送到的数据、信息进行分析处理,实现监测与控制的智能化。
216.用选择替代的、较小的数据表示形式以达到减少数据量的目的。它可以分为有参方法和无参方法。上述文字体现了数据预处理中的( A )策略?
A:数据归约
B:离散化和概念分层生产
C:数据压缩
D:数据立方体
解析:数据规约指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法两类。
有参数方法是使用一个模型来评估数据,只需存放参数,而不需要存放实际数据,例如回归(线性回归和多回归)和对数线性模型。
无参数方法就需要存放实际数据,例如直方图、聚类、抽样。
217.企业A使用MapReduce时发现计算任务异常停止,经检测发现是计算资源不足,于是通过增加服务器来解决,请问这体现了MapReduce的( B )特性?
A:可靠性
B:良好的扩展性
C:高效性
D:可扩展性
解析:良好的扩展性 当计算资源不能得到满足的时候,可以通过简单的增加机器来扩展它的计算能力。
218.下列Ambari的功能描述不正确的是?( A )
A:提供了一个仪表板来监控Hadoop集群的健康和状态。可以进行指标收集,不能实现对节点故障、剩余磁盘空间不足等做出系统警报
B:使用Ambari REST API可以将Hadoop配置、管理和监控功能轻松集成到他们自己的应用程序中
C:Ambari为在整个集群中启动、停止和重新配置Hadoop服务提供集中管理
D:Ambari提供了一个分步向导,用于在任意数量的主机上安装Hadoop服务
解析:提供了一个仪表板来监控Hadoop集群的健康和状态。利用Ambari完成指标收集。 利用Ambari Alert Framework进行系统警报。
219.下列选项中,哪个是NoSQL分类中常见的列族式数据库?( C )
A:MongoDB
B:Elasticsearch
C:HBase
D:Memcached
解析:常见的列族型数据库有Cassandra、HBase、Hypertable等。
220.在阿里云云计算中,应用层使用的是什么服务模式? ( A )
A:SaaS
B:IaaS
C:PaaS
D:LaaS
解析:SaaS:Software-as-a-Service(软件即服务):应用层
221.Hadoop有三个核心组件(HDFS、YARN、MapReduce),其中HDFS的全称是?(B)
A:分布式存储系统
B:Hadoop分布式文件系统
C:密集分布式
D:结构化存储
解析:Hadoop分布式文件系统(HDFS)
222.我们在选择观看电影时,往往因为电影种类繁多,不知道如何选择。此时,在大部分的情况下,我们会询问周围的朋友,倾听他们的推荐意见,选择需要观看的电影。这体现了哪种数据挖掘算法?( D )
A:回归分析
B:聚类
C:关联规则
D:协同过滤
解析:协同过滤的思路是通过群体的行为来找到某种相似性(用户之间的相似性或者标的物之间的相似性),通过该相似性来为用户做决策和推荐。
223.数据仓库可以存储多个数据源的数据,对数据加工后产生的信息,最终用于企业的决策,以下对数据仓库描述不正确的是?( A )
A:可以生产数据
B:不会消费数据
C:数据来源于外部,出于分析性报告和决策支持目的而创建
D:反映数据的历史变化
解析:数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。
224.阿里云实时数仓Hologres属于阿里云大数据产品体系中的哪一类产品?( A )
A:大数据计算与分析
B:大数据工具与服务
C:大数据分析与可视化
D:智能搜索与推荐
解析:链接:https://help.aliyun.com/document_detail/113648.html Hologres
致力于高性能、高可靠、低成本、可扩展的实时计算引擎研发,为用户提供海量数据的实时数据仓库解决方案和亚秒级交互式查询服务,广泛应用在实时数据中台建设、精细化分析、自助式分析、营销画像、人群圈选、实时风控等场景。
225.阿里大数据产品分为五类,大数据计算与分析,智能搜索与推荐,数据开发和治理、大数据工具与服务、大数据分析与可视化,下列选项中属于数据开发和治理类产品的是?( AC )
A:Dataphin智能数据建设与治理
B:OpenSearch智能开放搜索
C:DataWorks大数据开发治理平台
D:DataHub数据总线
解析:大数据开发治理平台 DataWorks基于MaxCompute/EMR/MC-Hologres等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台,自带阿里巴巴数据中台与数据治理最佳实践,赋能各行业数字化转型。每天阿里巴巴集团内部有数万名数据/算法工程师正在使用DataWorks,承担集团99%数据业务构建。
226.数据可视化指使用 ( ABDE ) 等工具对数据进行编码,在视觉上传达定量信息
A:点
B:线
C:二维数据库表
D:统计图或信息图表
E:图表
解析:数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。
227.HBase是一个能完成海量数据的存储支持线上业务的实时查询的框架,以下选项中正确描述了HBase的特性的是?( ABD )
A:高可靠性
B:高性能
C:面向对象
D:可伸缩性
解析:HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库
228.Apache Spark核心组件包含:Spark Streaming、Spark SQL、Spark Core、GraphX、MLlib,下列哪个选项是对MLib组件的描述?( D )
A:提供流计算组件
B:是一个用来处理结构化数据的Spark组件
C:基于内存多语言执行的核心引擎
D:Spark机器学习库
解析:MLlib:Spark机器学习库
Spark的MLlib提供了较丰富的机器学习库,包括分类、回归、协同过滤、聚合,同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块 https://help.aliyun.com/document_detail/441938.html
229.Hive的SQL执行流程依次为Parser,Semantic Analyzer、Logical Plan Generator、Logical Optimzer.Physical Plan Generator,Physical Plan Optimizer.其中步骤Semantic Analyzer作用是?( B )
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Semantic Analyzer:将抽象语法树转换成查询块
230.销量预测的流程是确定目标->整理数据->选择方法->建立模型->编写报告。以下说法中错误的是( C )。
A:确定预测目标一般包括了解项目的背景,明确要解决的问题、需要分析的范围、误差或准确度的要求
B:分析整理原始数据时,需要明确数据字段的含义,做数据探查以了解其分布特点,有没有重复、空缺和异常值等
C:选择预测方法时,因为定性分析方法没有定量分析方法准确和科学,所以一般不会选择定性方法
D:编写预测报告时,不管面向的对象是主管还是客户,都要做到简洁明了、有理有据、逻辑链完整,避免含糊不清,思维跳跃或者过于冗长。
解析:企业中往往会结合定性和定量使用,才能更准确
231.在DataWorks中, ( C )是指使用系统或计算资源的客户,即公司。
A:DataWorks项目
B:MaxCompute项目空间
C:组织
D:个人账号
解析:在DataWorks中,组织是指使用系统或计算资源的客户,即公司
232.关于阿里云大数据构建应用系统描述错误的是( D )。
A:业务系统在ECS集群部署相关的应用程序,相关的业务数据存储在云数据库RDS内;
B:通过数据工场DataWorks将数据库 RDS内的业务数据同步至大数据计算服务MaxCompute中,进行数据加工处理后,再通过DataWorks同步至数据库RDS中;
C:数据库RDS、大数据计算服务 MaxCompute中的数据可通过DataV、 Quick BI进行展示。
D:通过DataHub工具,将ECS集群上的业务系统产生的实时数据或日志同步至MaxCompute中加工处理,处理后的数据同步至云数据库,一般是在构建实时流处理时比较常用
解析:通过DataHub工具,将ECS集群.上业务系统产生的实时数据或者日志同步至MaxCompute 中进行加工处理,处理后的数据同步至云数据库; .或者直接进行实时计算,将实时计算的结果,同步保存至云数据库,供实时或离线应用使用。
业务系统在ECS集群部署相关的应用程序,相关的业务数据存储在云数据库RDS内;
通过数据工场DataWorks将数据库RDS内的业务数据同步至大数据计算服务MaxCompute中,进行数据加工处理后,再通过DataWorks同步至数据库RDS中;
数据库RDS、数据计算服务MaxCompute中的数据可通过DataV、Quick BI进行展示。
233.下列关于MaxCompute描述不正确的是( A )。
A:MaxCompute只提供离线数据的接入
B:MaxCompute适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等
C:MaxCompute适用于100 GB以上规模的存储及计算需求,最大可达EB级别
D:MaxCompute深度融合了阿里云Dataworks、QuickBI、机器学习PAI等产品
解析:MaxCompute提供离线和流式数据的接入,支持大规模数据计算及查询加速能力
234.MaxCompute具有存储、计算引擎、计算模型数据通道、用户接口四层结构,每层的任务职责也不同,那么如果执行“desc [partition ()]; ”,最终由( A )处理该命令语句并返回结果
A:计算层
B:存储层
C:客户端(用户接口)
D:计算模型数据通道
解析:DESC查看表或视图信息。
235.对下列报错FAILED: ODPS-0123031:Partition exception - invalid dynamic partition value: province=上海 描述正确的是( D )?
A:SQL语法报错
B:超过2000个动态分区
C:动态生成的分区值为NULL
D:非法的动态分区
解析:使用了非法的动态分区。动态分区是根据指定字段进行分区,不支持特殊字符和中文动态分区字段。
236.DataWorks是为用户提供专业高效、安全可靠的一站式大数据开发与治理平台,使用其进行数据开发前,需做好相关准备工作,保障后续开发任务可顺利执行,下列哪项能准确匹配DataWorks服务开通流程?( A )
A:注册账号-购买MaxCompute资源-创建工作空间-添加项目组成员
B:准备阿里云ARM账号-开通与购买DataWorks服务-
C:准备阿里云账号-创建工作空间-为空间添加成员
D:准备阿里云账号-开通与购买DataWorks服务-创建工作空间
解析:开通DataWorks服务流程 注册账号-购买MaxCompute资源-创建工作空间-添加项目组成员。
237.阿里云机器学习PAI平台是中国云端机器学习平台之一,下列哪个()选项不属于PAI的业务架构。( B )
A:智能标注(iTAG)
B:容器镜像服务ACR
C:可视化建模PAI-Designer、交互式编程建模PAI-DSW
D:云原生在线推理服务平台PAI-EAS
解析:PAI支持的硬件设施包括CPU、GPU、FPGA、NPU、容器服务ACK及ECS。
238.MaxCompute与机器学习平台PAI无缝集成,提供强大的机器学习处理能力;用户也可使用熟悉的Spark-ML开展智能分析。使用Python机器学习三方库。上述文字这体现了MaxCompute在大数据处理与分析中的( A )作用?
A:集成AI能力
B:支持流式采集和近实时分析
C:数据存储能力
D:弹性能力与扩展型
解析:https://help.aliyun.com/document_detail/27800.html
集成AI能力与机器学习平台PAI无缝集成,提供强大的机器学习处理能力。
您可以使用熟悉的Spark-ML开展智能分析。
使用Python机器学习三方库。
239.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。下列选项中属于数据可视化优势的是?(ABC)
A:传播速度快
B:数据更直观
C:多维展示
D:动态效果
解析:传播速度快、数据更直观、多维展示、容易记忆、定制显示。
240.Kafka是分布式发布消息订阅系统。下面关于Kafka描述正确的是?( C )
A:Kafka是安全高效的,不会出现消息丢失的情况
B:Kafka的功能十分强大,信息消费的稳定性极高,不会出现重复消费的情况
C:Kafka的优异性能体现之一就是高吞吐
D:Kafka能满足任何场景的数据
解析:Kafka的缺点:
1、由于是批量发送,所以数据达不到真正的实时
2、对于mqtt协议不支持
3、不支持物联网传感数据直接接入
4、只能支持统一分区内消息有序,无法实现全局消息有序
5、监控不完善,需要安装插件
6、需要配合zookeeper进行元数据管理
7、会丢失数据,并且不支持事务
8、可能会重复消费数据,消息会乱序
241.使用简单的数据可视化图表,可以让观察者在短时间内关注重点。上述文字体现了数据可视化的( D )优势?
A:容易记忆
B:多维展示
C:传播速度快
D:数据更直观
解析:“能够在短时间内关注重点”说明了数据直观
242.流计算的一般处理流程有数据采集、数据实时计算以及实时查询,下面关于流计算的描述,错误的是?( D )
A:流计算是实时获取来自不同数据源的海量数据,经过实时分析处理,获得有价值的信息
B:对实时处理后的数据,提供用户实时查询展示。且是一个主动推送的过程,数据更新过程中自主推送,避免了传统数据的使用时需要自主查询的情况
C:经过流处理系统处理后的数据,数据直接流出使用或存入数据库,但有时候因为需求的要求有高时效性,数据处理时间过长,无法使用,也可以丢弃数据
D:数据实时采集到数据实时计算,然后数据实时查询,不能自动推送
解析:实时计算 是通过Source到process再到Sink的过程,数据端可以通过定义实现自动数据推送功能
243.在HDFS写入数据的工作过程中,用于存储元数据的节点是( C )?
A:HDFS Client
B:DataNode
C:NameNode
D:Distributed File System
解析:Namenode是元数据存放的节点,为主要管理节点
244.以下内容属于哪种数据类型?( B )
Amy
18
A:结构化
B:半结构化
C:非结构化
D:网状数据
解析:结构化数据:简单来说是数据库可以进行二维存储;
半结构化数据:比如Xml、json等数据;
非结构化数据:如图片、视频等;
网状结构:用有向图表示实体和实体之间的联系的数据结构模型称为网状数据。
245.HDFS读取文件步骤正确的是( D )。
A:客户端与DataNode建立连接一客户端请求NameNode的元数据信息一客户端与所有的目标DataNode建立连接并读取文件一NameNode反馈目标文件Block和DataNode节点的对应关系
B:客户端与DataNode建立连接一客户端请求DataNode的元数据信息一客户端与所有的目标DataNode建立连接井读取文件
C:客户端与DataNode建立连接一客户端请求DataNodef的元数据信息一客户端与所有的目标DataNode建立连接井读取文件一读写完毕后,客户端给NameNode发生读取信息
D:客户端与NameNode建立连接一客户端请求NameNode的元数据信息一NameNode反馈目标文件Block和DataNode节点的对应关系一客户端与所有的目标DataNode建立连接并读取文件
解析:HDFS读取,NameNode负责数据的管理,DataNode负责数据的存储,客户端请求会先有NameNode交互,获取到请求数据的DataNode位置返回给客户端,客户端再指定读取datanode数据
246.数据采集多维性指的是要收集业务对象的( A )数据。
A:不同角度的业务数据
B:多种类型和维度
C:数量和来源
D:属性和数量
解析:数据多维性指的是描述数据的角度多、从不同的方面来描述数据。数据维度指的是描述数据的业务角度
247.在大数据生态体系的数据处理中,有两种计算引擎MapReduce 与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎的说法正确的是( AC )。
A:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
B:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
C:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算
D:MapReduce跟Spark相比,处理速度更快
解析:MapReduce计算框架是基于磁盘的,做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算,IO开销大,效率低,但适用于大数据量 Spark计算框架是基于内存的,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取,基于内存计算IO开销小,内存消耗大,适用于相对小数据量,计算效率要求较高的场景
248.在Hadoop的体系中,哪一个组件解决数据存储的问题?( A )
A:HDFS
B:Redis
C:MongoDB
D:MySQL
解析:HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,主要负责集群数据的存储与读取
249.数据预处理是将原始数据转换为可理解的格式的过程,数据预处理的步骤不包含的选项是?( C )
A:数据集成
B:数据清洗
C:数据脱敏
D:数据归约
E:数据变换
解析:数据预处理的四个步骤分别是数据清洗、数据集成、数据变换和数据归约。
250.Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,关于Spark的特点描述,正确的是?( ABC )
A:可以使用Python、SQL、scala、Java或R语言,统一离线计算和实时计算开发方式
B:通用的SQL分析,快速构建分析报表,运行速度快于大多数数仓计算引擎
C:大规模科学计算,支持对PB 级数据执行探索性分析
D:可以在桌面电脑上训练机器学习算法,但不能使用相同的代码扩展到包合数千台机器的集群上,需要修改代码
解析:Batch/Streaming data:统一化离线计算和实时计算开发方式,支持多种开发语言,Python、SQL、Scala、Java、R SQL analytics:通用的SQL分析快速构建分析报表,运行速度快于大多数数仓计算引擎 Data science at scale:大规模的数据科学引擎,支持PB级别的数据进行探索性数据分析,不需要使用采样 Machine learning:可以支持在笔记本电脑上训练机器学习算法,并使用相同的代码扩展到数千台机器的集群上
251.在传统的大数据批处理系统中,以下哪些选项是MapReduce的优点?( ABC )
A:易于编程
B:良好扩展性
C:高容错性
D:高精度性
解析:优点: 1、易于编程。用户只关心业务逻辑,实现框架的接口。 2、良好的扩展性。可以动态增加服务器,解决计算资源资源不足问题。 3、高容错性。任何一台机器挂掉,可以将任务转移到其他节点。 4、适合海量数据计算(TB/PB),几千台服务器共同计算。
252.关于MapReduce的局限性,描述正确的是?( D )
A:代码简洁
B:支持实时计算
C:执行效率高
D:适合选代多次、交互式和流式处理
解析:MapReduce的执行速度慢。 MapReduce过于底层。 实时计算性、不能进行流式计算
253.下列选项中,哪一项描述的是Sqoop的应用场景?( A )
A:使用Sqoop将MySQL数据导入HDFS中
B:使用Sqoop将MySQL数据导入Oracle中
C:使用sqoop将Oracle数据导入阿里云的RDS MySQL中
D:使用sqoop将redis数据导入阿里云的RDSMySQL中
解析:使用Sqoop将MySQL数据导入HDFS中
254.使用Datav进行数据可视化开发的过程中,需要了解Datav的操作流程,下面那一项属于DataV正确的操作流程?( A )
A:准备工作一创建可视化应用一添加并配置可视化组件一调整组件图层位置一预览并发布可视化应用
B:准备工作一创建可视化应用一调整组件图层位置一添加并配置可视化组件一预览并发布可视化应用
C:添加并配置可视化组件一准备工作一调整组件图层位置一预并发布可视化应用
D:准备工作一调整组件图层位置一创建可视化应用一添加井配置可视化组件一预览并发布可视化应用
解析:https://help.aliyun.com/apsara/enterprise/v_3_16_2_20220708/datav/ase-paas-user-guide/overview-1.html?spm=a2c4g.14484438.10001.12
1、准备工作。 2、创建可视化应用。 3、添加并配置可视化组件。 4、调整组件的图层和位置。 5、预览并发布可视化应用。
255.Flume是Hadoop生态圈的组件之一,关于Flume的组件功能,描述正确的是( C )
A:source负责接收日志数据,不支持不同类型和不同式的日志,所以需要对日志数据处理类型和格式
B:Source将日志教据的写入到Sink中并负责处理操作
C:sink负责从channel中的获取数据,写入到接收方
D:Sink可以获取接收方的数据
解析:Sink主要是从Channel中拉取数据、拉取日志信息,然后最后存放到了接收方 Source负责接收events或通过特殊机制产生events,并将events批量放到一个或多个Channels。有驱动和轮询2种类型的Source。
256.网络爬虫是一种通过既定规则,自动抓取网页信息的程序,它的常见分类有( ABCD )。
A:通用网络爬虫
B:聚集网络爬虫
C:增量式网络爬虫
D:深层网络爬虫
E:随机型爬虫
解析:网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际的网络爬虫系统通常是几种爬虫技术相结合实现的。
257.下列关于MaxCompute与Hologres的关系,描述正确的是 ( ABC )
A:在计算引擎方面,MoxCompute甚于Stage和File设计的,持久化的,可扩展SQL Engine 而Hologros甚于内存的,超快速响应的SQL Engine,计算不落盘
B:在集群方面,MdaxCompute共享大集群,而Hologres独享集群
C:在扩展性方面,MaxCompute几乎不受限制,而Hologres复杂查询尽量避免跨多节点数据shuffle
D:在接口标准方面,MaxCompute支持PostgreSQL,而Hologres支持MCSQL
解析:https://developer.aliyun.com/article/871747 MaxCompute:共享大集群、基于Stage和File设计的,持久化的,可扩展SQLEngine、几乎不受限制、接口标准MCSQL。 Hologres:独享集群、复杂查询尽量避免跨多节点数据shuffle、基于内存的,超快速响应的SQLEngine,计算不落盘、接口标准PostgreSQL。
258.阿里云的云计算提供了多种服务模式,其中基础设施使用的是( C )
A:SaaS
B:Paas
C:laas
D:全部本地布署
解析:IaaS: Infrastructure-as-a-Service(基础设施即服务)
259.阿里云的机器学习平台提供了大量实用的算法,包括数据预处理方法,常用的“归一化”处理主要是( C )
A:把指定数据设置为1
B:把指定数据设置为平均值
C:对数据的线性变换,使结果值映射到[0-1]之间
D:对>1的数据设置为1
解析:归一化是将数据归纳到0-1之间,保证不同纲量的特征数据对结果的影响是一样的
260.k-means 如何选择聚类中心的个数( A )。
A:肘部法
B:依据过往其他项目经验,设置合适k值
C:如果数据量较大,设置为10
D:如果数据量小,设置为3
解析:不同问题,有不同的合适值,要通过肘部法来确定
261.关于阿里云PAI产品-模型在线服务(EAS)模块描述正确的是( A )。
A:支持大规模复杂模型的一键部署功能,实时弹性扩缩容,提供完整的运维监控体系
B:面向AI开发者的云端机器学习交互式开发IDE,包含Jupyterlab, VScode及Terminal
C:基于PAI平台能力孵化的垂直领域解决方案集合
D:提供包括数据集、模型、代码配置、实验对照组等核心AI资产的管理能力
解析:AI资产管理提供包括数据集、模型、代码配置、实验对照组等核心AI资产的管理能力。交互式建模(DSW)面向AI开发者的云端机器学习交互式开发IDE,包含Jupyterlab, VScode及Terminal。AI行业插件基于PAI平台能力孵化的垂直领域解决方案集合,方便直接应用。
262.Quick BI数据可视化分析平台的优势有?( ACE )
A:快速搭建数据门户
B:拖拽式数据建模和可视化分析
C:智能数据分析和交互
D:专为云上用户量身打造的新一代智能BI服务平台
E:强大的Quick数据引擎
解析:Quick BI的优势是:
1、强大的Quick数据引擎
2、快速搭建数据门户
3、智能数据分析和交互
4、安全管控数据权限
263.HBase是一个分布式的、面向列的开源数据库,关于HBase的特点,描述正确的是?(ABD)
A:高可靠
B:高性能
C:高精度
D:可伸缩
解析:HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库
264.下列关于Hadoop生态组件Sqoop的概述,正确描述是什么?(BC)
A:用于分布式应用的高性能协调服务
B:是一款用于在Hadoop和关系数据库服务器之间传输数据的工具
C:是一种用于在HDFS和RDMS之间传输数据的工具
D:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
E:是大数据集日志收集的框架
解析:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递; Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库(如MySQL,Oracle)导入数据到Hadoop HDFS,并从Hadoop文件系统导出到关系数据库。 Oozie功能框架:基于工作流引擎的开源框架,是由Cloudera公司贡献给Apache的,它能提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。
265.Pig是Hadoop生态圈的组件之一,关于Pig,描述错误的是?( D )
A:Pig是一个基于Hadoop的大规模数据分析平台
B:Pig是一个用于并行计算的高级数据流语言和执行框架
C:Pig有一套和SQL类似的执行语句,处理的对象是HDFS上的文件
D:Pig的数据处理语言采取分布式消息订阅发布方式
解析:Pig的数据处理语言是数据流方式的,一步一步的进行处理; 数据处理语言采取分布式消息订阅发布方式描述的是Kafka消息队列的功能
266.Zookeeper组件主要负责HMaster、RegionServer、Region的地址信息,以下选项中关于Zookeeper组件说法正确的是?( D )
A:日志
B:管理者
C:客户端
D:协调服务
解析:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
267.需要开通阿里云DataWorks服务的正确步骤是( A )。
A:注册账号一购买MaxCompute资源一创建工作空间一创建子账号分配权限(可选)一添加项目组成员
B:注册账号一购买MaxCompute资源一创建子账号分配权限(可选)一创建工作空间一添加项目组成员
C:注册账号一添加项目组成员一购买MaxCompute资源一创建工作空间一创建子账号分配权限(可选)
D:注册账号一购买MaxCompute资源一添加项目组成员一创建工作空间一创建子账号分配权限(可选)
解析:链接:https://help.aliyun.com/document_detail/74246.html
268.下列选项中,NoSQL分类中常见的键值数据库有哪些( D )。
A:MongoDB
B:MySQL
C:Cassandra
D:Redis
解析:流行的键值数据库包括Riak、Redis(由于可以存储集合、列表等,也称为数据结构服务器)、Memcached等。
269.Sqoop可以将数据从Hadoop导出到哪些数据库中?( D )
A:Oracle
B:Memcache
C:MongoDB
D:MySQL
解析:使用Sqoop可以将数据从关系型数据库管理系统(如MySQL)中导出到Hadoop系统(如HDFS、Hive、HBase)中。反之亦可。
270.Databricks数据洞察的特点有哪些? (ABC)
A:高效稳定
B:批流一体
C:协同分析
D:数据隔离
解析:高效稳定、流批一体、协同分析、数据共享。
链接:https://help.aliyun.com/document_detail/169125.html
高效稳定 产品内核使用Databricks商业版的Runtime和Delta Lake。与社区版Spark和Delta Lake相比,在功能和性能上都有明显的优势。 批流一体 在实际的业务场景中,往往既有批处理的需求,也有流式计算的需求。您不仅需要清楚地划分批流两种作业,还需要分别进行开发。Databricks Delta Lake可以使用一套API接口同时处理批作业和流作业,达到事半功倍的效果。 协同分析 数据洞察Notebook为大数据分析提供了可视化、交互式的平台。用户可以在Notebook中编辑、执行、查看Spark作业。不同角色的用户可以共享集群资源和Notebook内容,协同合作。
数据共享 Databricks数据洞察采用数据湖分析的架构设计,使用阿里云对象存储服务(OSS)为核心存储,直接读取分析OSS的数据,无需对数据做二次迁移,实现数据在多引擎之间的共享。
271.Data Integration属于阿里云大数据产品体系的( B )产品?
A:数据开发和治理
B:大数据工具与服务
C:智能搜索与推荐
D:大数据分析与可视化
解析:Data Integration指的是数据集成工具,数据集成工具的主要作用是数据采集,属于大数据工具服务
272.以下属于数据可视化的图表中类别比较型图表的是?( BC )
A:散点图
B:柱形图
C:条状图
D:矩形树状图
解析:柱状、条状以及其衍生图表属于类别比较型图表
273.下列选项中,关于阿里云实时数仓Hologres的操作流程,描述正确的是( D )
A:准备阿里云账号一购买Hologres实例一连接开发工具一创建数据库一导入数据并查询
B:准备阿里云账号一购买Hologres实例一创建数据库一导入数据并查询一连接开发工具
C:准备阿里云账号一连接开发工具一购买Hologres实例一创建数据库一导入数据并查询
D:准备阿里云账号一购买Hologres实例一创建数据库一连接开发工具一导入数据并查询
解析:链接:https://help.aliyun.com/document_detail/362053.html Hologres正确步骤是:准备阿里云账号一购买Hologres实例一创建数据库一连接开发工具一导入数据并查询
274.在聚类算法中,STING是典型基于网格的聚类算法,对基于网格的概念,描述正确的是?( D )
A:通过构造一个达代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类
B:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构置
C:通过稀疏区域来划分高安度区域以发现明显的聚类和立点,主要用于空间型数据的聚类
D:是一种具有多分辨率的聚类方法,其中空间区域被划分为矩形单元(使用维度和经度),并采用分层结构
解析:STING 是一个基于网格的多分辨聚类技术,其中空间区域被划分为矩形单元(使用维度和经度),并采用分层结构。
275.在进行数据预处理时,关于数据集成要解决的问题,以下描述不正确的是( B )
A:同义不同名、同名不同义的问题
B:DML语句的问题
C:对现实世界的同一实体,来自不同数据源的属性定义不同的问题
D:属性重复,属性相关冗余,元组重复的问题
解析:实体识别:同义不同名、同名不同义的问题
冗余与相关分析:属性重复,属性相关冗余,元组重复的问题
数据冲突和检测:对现实世界的同一实体,来自不同数据源的属性定义不同的问题
276.数据清洗中的异常值处理是指根椐每个变量的( A ),检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
A:合理取值范围和相互关系
B:合理程度和真实性
C:差异程度和相互关系
D:合理取值范围和真实性
解析:根据每个变量的合理取值范围和相互关系,检查数据是否规范,是否超出正常范围,逻辑上不符或相互矛盾的数据。
277.数据预处理中,数据集成要解决的问题包含( ABC )
A:实体识别
B:冗余与相关分析
C:数据冲突和检测
D:数据的增删改查
解析:冗余与相关分析、数据冲突和检测、实体识别
278.通过文件系统可以实现对存储设备上的文件进行操作与管理,实现这种管理的最主要的方式是什么?( B )
A:实现对文件的按内容存取
B:实现对文件的按名存取
C:实现文件的高速输出和输入
D:实现虚拟存储
解析:实现对文件的按名存取
279.大数据处理技术主要目标是( B )
A:海量数据存储
B:海量数据分析
C:发现数据价值
D:数据的共享
解析:数据处理是对纷繁复杂的海量数据价值的提炼,而其中最有价值的地方在于预测性分析。
280.阿里云大数据产品可以更快速地解决海量数据计算问题,有效降低企业成本,并保障数据安全。阿里云大数据产品主要分类有( ABCD )、智能搜索与推荐产品。
A:计算与分析产品
B:开发与治理产品
C:工具与服务产品
D:分折与可视化产品
E:弹性伸缩与ECS产品
解析:阿里大数据产品分为五类,大数据计算与分析,智能搜索与推荐,数据开发和治理、大数据工具与服务、大数据分析与可视化。
281.关于阿里云大数据产品实时数仓Hologres的描述,正确的是? ( ABC )
A:支持PB级数据多维分析 (OLAP) 与即席分析 (Ad Hoc)
B:支持高并发低延迟的离线数据服务 (Serving)
C:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求
D:标准SQL协议,无缝对接主流BI和SQL开发框架,无需应用重写。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入仓
解析:Hologres是兼容PostgreSQL协议的一站式实时数仓引擎,支持海量数据实时写入、实时更新、实时分析,既支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),又支持高并发低延迟的在线数据服务(Serving)。 https://help.aliyun.com/document_detail/605017.html?spm=a2c4g.169917.0.i14 数据实时写入、实时更新,无需批处理,写入即可见。Hologres与Flink、Spark原生集成,支持高吞吐、低延时、有模型、高质量的实时数仓开发,满足业务洞察实时性需求。 标准SQL接口,兼容PostgreSQL 11协议,无缝对接主流BI和SQL开发框架,支持19+款主流BI工具,无需应用重写,无额外学习成本。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入湖入仓。 https://help.aliyun.com/document_detail/113664.html?spm=a2c4g.113648.0.0.778678251MCFeN
282.Hadoop是一个分布式计算平台,用户可以轻松地在Hadoop上开发、运行与处理海量数据的应用程序,它主要特点有 (ACDE)
A:高可靠
B:高精度
C:高扩展
D:高效率
E:高容错
解析:高可靠、高扩展、高效率、高容错、低成本。
283.网络爬虫又称为网络机器人、网络蜘蛛,是一种通过既定规则,能够自动提取网页信息的工具。它是由( ABC )组成。
A:爬虫节点
B:控制节点
C:资源库
D:数据库存储
解析:网络爬虫由控制节点、爬虫结点、资源库组成。
284.以下图表中,属于饼图变种的有哪些?( CD )(正确2个)
A:仪表盘
B:漏斗图
C:3D饼图
D:环图
E:雷达图
解析:环形图是由两个及两个以上大小不一的饼图叠在一起,可显示多个样本各部分所占的相应比例,有利于构成的比较研究 3D饼状图是饼图的一种 以三维格式显示每一数值相对于总数值的大小
285.大数据4V特征之一是“Value",表明大数据本身具有价值,其提供的核心价值是( A )。
A:洞察与预测
B:存储与计算
C:资源优化配置
D:传统企业转型
解析:大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。
286.根据学习样本数据不同,对问题有不同的建模方式,以下哪个是对监督学习的描述( A )
A:学习样本中有结果标记
B:学习样本中无结果标记
C:学习样本中部分记录有结果标记
D:学习样本中自动学习结果的标记
解析:监督学习是有对有特征和结果的数据进行训练的方式。
287.DataWorks是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图服务等全方位的产品服务,以下属于DataWorks使用场景的是?( B )
A:存储海量的数据,进行数据的清洗
B:使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发
C:对数据进行离线计算
D:直接把计算的结果显示出来
解析:四个选项都是dataworks所能提供的能力B。DataWorks(大数据开发治理平台)是阿里云重要的PaaS(Platform-as-a-Service)平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。https://help.aliyun.com/document_detail/73015.html
288.大数据处理流程一般分为5个步骤:数据采集、数据预处理、( A )、数据分析与挖掘、数据可视化。
A:数据存储
B:数据计算
C:数据集成
D:数据归约
解析:大数据处理流程包括:数据采集、数据预处理、数据存储、数据分析与挖掘、数据可视化。
289.物联网通过对互联网、无线网络的融合,将物体的信息实时、准确地传送,以便信息交流、分享。上述文字是对物联网( A )特点的体现。
A:可靠传输
B:实时传输
C:准确传输
D:信息交流
解析:可靠传输—通过对互联网、无线网络的融合,将物体的信息实时、准确地传送,以便信息交流、分享。
290.( B )平台提供包括操作系统和围绕特定应用的必需的服务,供应商提供各种开发和分发应用的解决方案,比如虚拟服务器、操作系统和SDK、点外卖回家吃披萨,自供桌子碗筷等。
A:SaaS
B:PaaS
C:laaS
D:DaaS
解析:PaaS类似于IaaS,但是它包括操作系统和围绕特定应用的必需的服务。
291.下列选项中( A )可以处理离线数据也可以处理实时数据的计算框架?
A:Spark
B:Strom
C:Hive
D:Pig
解析:对一段时间内的海量离线数据进行统一处理,处理框架有Hadoop MapReduce、Spark、Flink
292.Flink在大数据处理与分析中的作用不包含( B )?
A:实时推荐
B:实时存储
C:实时反作弊
D:实时IOT数据分析
解析:Flink的功能有: 实时数仓、实时ETL、实时反作弊、 实时监测、实施推荐、实时IoT数据分析 ,Flink是实时处理引擎,不进行数据存储
293.DataWorks同步过程支持哪几种数据?( AB )
A:结构化数据
B:实时业务数据
C:非结构化数据
D:半结构化数据
解析:DataWorks同步过程支持的数据:
仅支持结构化的数据;
支持单地域内及部分跨地域的相互同步、交换;
完成数据同步,数据同步都是将业务系统中产生的业务数据定期导入到工作区,通过工作流任务的加工处理后,再将计算结果定期导入到指定的数据源中,供进一步展示或者使用。
294.在数据清洗的过程中,遇到字符串“2021年10月20日”或“2021—10—20”这样的数据与表中要求的“2021/10/20”的格式不对应,如何进行清洗?( C )
A:异常值处理
B:缺失值处理
C:数据类型转换
D:重复值处理
解析:数据转换:数据转换或统一成适合于挖掘的形式
295.MaxCompute支持后付费的模式,即用户可以先使用,然后根据使用的资源状况后付费。计费项中不包括因为( A )而产生的费用
A:数据上传阶段
B:数据下载阶段
C:计算处理过程中
D:存储
解析:https://help.aliyun.com/document_detail/150520.htm#section-pi7-8et-ull MaxCompute以项目为计费单元,计费项包括存储、计算和数据下载,费用包含存储(按存储量计费)、计算(根据计费模式产生费用)和外网下载(按下载量计费)费用。
296.下列选项中,关于Hadoop生态组件Oozie,描述正确的是?( D )
A:用于分布式应用的高性能协调服务
B:是一种支持Apache Hadoop集群的安装、部署,配置和管理的工具
C:是一种用于在HDFS和RDMS之间传输数据的工具
D:是一个基于工作流引擎的开源框架,提供对Hadoop、MapReduce和Pig Jobs的任务调度与协调
解析:Oozie 是一个基于工作流引擎的开源框架,提供对Hadoop MapReduce、Pig Jobs的任务调度与协调。
297.在Hive的架构中,能执行驱动效果的组件是哪一个?( B )
A:HWI
B:Driver
C:CLI
D:Metastore
解析:能执行驱动效果的组件是Driver
298.DataWorks,是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据同步、数据质量和数据服务等全方位的产品服务,以下属于DataWorks使用场景的是?( B )
A:海量数据的存储、数据的清洗
B:使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据源引入数据,并进行转化和开发
C:对数据进行离线计算
D:直接把计算的结果显示出来
解析:可以使用DataWorks,对数据进行传输、转换和集成等操作,从不同的数据存储引入数据,并进行转化和开发,最后将处理好的数据同步至其它数据系统。
299.Quick BI数据可视化分析平台提供了丰富的组件,以下哪些选项属于Quick BI数据可视化分析平台指标组件的优势?( ABC )
A:计算能力:一键配置高级计算同环比、进度完成率
B:可视化效果:显示图标logo、自定义背景、字体大小、颜色等
C:备注能力:可自定义文字/指标等备注信息,可自定义跳转外链路径,实现数据与其他系统之间的交互
D:交互操作:维度/指标筛选。表格内筛选等
解析:指标组件:
计算能力:一键配置高级计算同环比
可视化效果:显示图标logo、自定义背景、字体大小、颜色等
备注能力:可自定义文字/指标等备注信息,可以自定义跳转外链路径,实现数据与其他系统之间的交互
https://help.aliyun.com/document_detail/55685.html?spm=a2c4g.55685.0.i10
表格类组件:交互操作:维度/指标筛选。表格内筛选等
300.以下哪些选项不属于阿里云大数据产品实时数仓Hologres的作用( B )
A:支持实时写入
B:支持秒级交互式查询服务
C:支持实时分析
D:支持标准SQL
解析:Hologres是一站式实时数据仓库引擎,支持海量数据实时写入、实时更新、实时分析,支持标准SQL(兼容PostgreSQL协议),支持PB级数据多维分析(OLAP)与即席分析(Ad Hoc),支持高并发低延迟的在线数据服务(Serving),与MaxCompute、Flink、DataWorks深度融合,提供离在线一体化全栈数仓解决方案。 Hologres致力于高性能、高可靠、低成本、可扩展的实时数仓引擎研发,为用户提供海量数据的实时数据仓库解决方案和亚秒级交互式查询服务,广泛应用在实时数据中台建设、精细化分析、自助式分析、营销画像、人群圈选、实时风控等场景。 https://help.aliyun.com/product/113622.html?spm=5176.19600405.J_1171133070.1.63ba571d4KIKBj
301.在MaxCompute SQL中可以通过CREATET ABLE语句创建一个新表,创建表时可以指定IF NOT EXISTS,以下选项中说法正确的有 ( A )
A:在创建表时不指定IF NOT EXISTS,如果不存在同名的表,则新表创建成功
B:在创建表时不指定IF NOT EXISTS,并且存在表结构不一数的同名表,此同名表将会改动表结构
C:在创建表时指定IF NOT EXISTS,并且存在同名表,则表将会被覆盖
D:在创建表时指定IF NOT EXISTS,并且存在同名表,则表将会被覆盖
解析:在创建表时,如果不存在同名表且语义正确,表创建都会返回成功。 创建表时,如果不指定if not exists选项而存在同名表,则返回出错。若指定此选项,则无论是否存在同名表,即使原表结构与要创建的目标表结构不一致,均返回成功。已存在的同名表的元信息不会被改动。
302.在MaxCompute架构中,关于数据存储方面,以下选项中说明正确的是( C )
A:Maxcompute的数据存储在文件中
B:在MaxCompute中来用了行压缩技术
C:表是Maxcompute的数据存储单元
D:优化行存默认采用AliORC压缩格式
解析:
https://help.aliyun.com/document_detail/117298.html?scm=20140722.184.2.173
表(Table)是MaxCompute的数据存储单元。
优化列存默认采用AliORC压缩格式,存储压缩比提高30%~50%
303.Hive是基于Hadoop的一个( B )的工具,用于查询和管理在分布式存储系统中的大型数据集。
A:关系型数据库
B:数据仓库
C:非关系型数据库
D:数据库
解析:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
304.阿里云的云计算提供了多种服务模式,其中平台层使用的是 ( B )
A:Saas
B:Paas
C:laas
D:全部本地布署
解析:PAAS平台即(Platform-as-a-Service:平台即服务)
305.阿里云MaxCompute连接工具包含查询编辑器MaxCompute控制台、使用客户端(odpscmd)连接、DataWorks和MaxCompute Studio四种。其中哪一种连接工具由阿里云官方推荐且不需要手动安装?( C )
A:查询编辑器MaxCompute控制台
B:使用客户端(odpscmd)连接
C:DataWorks连接
D:MaxCompute Studio
解析:https://help.aliyun.com/document_detail/252783.html
DataWorks:不需要手动安装,基于MaxCompute项目以可视化方式实现全方位的数据开发、数据集成、数据服务等功能。当需要周期性调度作业时,推荐您使用该工具。
306.阿里云MaxCompute连接工具包含查询编辑器MaxCompute控制台、使用客户端(odpscmd)连接、DataWorks和MaxCompute Studio四种。其中哪一种需要手动安装,适用于熟悉IntelliJ IDEA工具的用户?( D )
A:查询编辑器MaxCompute控制台
B:使用客户端(odpscmd)连接
C:DataWorks连接
D:MaxCompute Studio
解析:https://help.aliyun.com/document_detail/252783.html
MaxCompute Studio:需要手动安装,基于流行的集成开发平台IntelliJ IDEA的开发插件,帮助您便捷、快速地进行数据开发。如果您可以熟练使用IntelliJ IDEA,推荐您使用该工具。
307.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?( A )
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
解析:Parser:将SQL解析为AST(抽象语法树)
308.MaxCompute是阿里自研的一种快速、完全托管的EB级数据仓库解决方案,以下哪个是MaxCompute的基本计算单元,并且SQL和MR都是通过其来执行的?( B )
A:实例
B:任务
C:表格
D:资源
解析:任务(Task)是MaxCompute的基本计算单元,SQL及MapReduce功能都是通过任务完成的
309.大数据面临着一些技术性难题,其中一个是海量数据的存储,目前主流的处理方式是通过( B )来解决。
A:共享存储系统
B:分布式存储系统
C:网络文件系统
D:本地文件系统
解析:大数据存储通过分布式技术,多副本存储实现海量数据稳定存储
310.DataWorks的数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。不支持下列哪一种类型的数据同步到MaxCompute?( D )
A:RDS中的数据
B:半结构化
C:结构化数据
D:OSS中存放的非结构化数据
解析:Maxcompute需要结构化和半结构化数据,非结构化数据无法同步至Maxcompute
311.小明在一家IT教育公司做运营工作,经常听到同学聊到MaxCompute核心概念,但又不知其意,下列哪些选项( ABCDE )能帮助小明更好的了解MaxCompute。
A:Project(项目)项目是MaxCompute的基本组织单元,类似于传统数据库的Database或Schema的概念,是进行多用户隔离和访问控制的主要边界
B:Partition(分区)分区Partition是指一张表下,根据分区字段(一个或多个字段的组合)对数据存储进行划分
C:View(视图)视图是在表之上建立的虚拟表,它的结构和内容都来自表。一个视图可以对应一个表或多个表
D:Role(角色)角色是MaxCompute安全功能中的概念,可以理解为拥有相同权限的用户的集合。多个用户可以同时存在于一个角色下,一个用户也可以隶属于多个角色
E:Resource(资源)资源是MaxCompute中特有的概念。当使用MaxCompute的自定义函数(UDF)或MapReduce功能时,需要依赖资源来完成。
F:odpscmd-MaxCompute的命令行客户端,适用于任意场景,用户可以专注于编写命令完成数据处理。
解析:MaxCompute具有层次结构,核心包含Project(项目),Table(表),Partition(分区),View(视图),User(用户),Role(角色),Resource(资源),Function(函数),Instance(实例),Quota(配额),Quota(配额),Schema。
312.Dataworks数据管理通过数据地图功能实现对数据的统一管理和血缘跟踪,数据地图以数据搜索为基础,提供表使用说明,那么下列对于表的管理操作描述不正确的选项是( D )?
A:查找表:通过类目、项目名称、模糊查询搜索表
B:可以查看表的详情,即元数据信息
C:可以进行收藏表、申请权限、生成API等操作
D:数据管理模块中的表存储信息是实时同步的
解析:表存储信息是离线计算的、默认是一天同步一次信息
313.K-NN中可以用来做距离度量的指标是( ABC )。
A:欧氏距离
B:曼哈顿距离
C:余弦距离
D:交叉熵
解析:选项欧氏距离、曼哈顿距离、余弦距离是可用的距离参数
314.选项中关于Hadoop生态组件Pig功能的描述正确的是?( D )
A:可扩展的分布式数据库,支持大表的结构化数据存储
B:数据仓库基础架构,提供数据汇总和命令行即席查询功能
C:可扩展的机器学习和数据挖掘库
D:用于并行计算的高级数据流语言和执行框架
解析:HBase:可扩展的分布式数据库,支持大表的结构化数据存储。
Hive:数据仓库基础架构,提供数据汇总和命令行即席查询功能。
Mahout:可扩展的机器学习和数据挖掘库。
Pig:用于并行计算的高级数据流语言和执行框架。
315.在数据可视化的图表选择中,下列选项中不属于局部整体型图表的是?( D )
A:百分比堆积面积图
B:旭日图
C:沃洛诺伊图
D:散点图
E:南丁格尔玫瑰图
解析:饼图、圆环图、半圆环图、扇形图、马赛克图、南丁格尔玫瑰图、沃洛诺伊图、百分比堆积面积图、旭日图
316.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下对数据进行清洗的手段正确的是( ACD )
A:缺失值填充
B:集成不同的数据库
C:重复值处理
D:异常值和数据类型转换
解析:数据清洗的内容包括: 缺失值处理、异常值处理、 数据类型转换、重复值处理
317.大数据的四种计算模式解决了大数据中不同类型的数据处理问题,下列关于大数据处理分析计算模式,描述正确的是?( ABD )
A:图计算(Graph Processing)是将数据按照图的方式建模可以获得以往用扁平化的视角很难得到的结果
B:查询分析计算是针对超大规模的数据的存储管理与查询分析,需要提供实时或者准时的响应,以满足企业管理的需求
C:流计算是实时获取来自相同数据源的海量数据,经过实时分析处理,获得有价值的信息
D:批处理计算就是对某对象进行批量的处理,也称为批处理脚本,它是一种简化的脚本语言,主要是针对大规模数据的批量处理
解析:流计算:实时获取来自不同数据源的海量数据经过实时分析处理,获取有价值的信息。
318.Quick BI数据可视化分析平台提供了丰富的组件,以下选项中哪些属于Quick BI的组件? ( ACDE )
A:指标
B:存储
C:趋势
D:比较
E:表格
解析:阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和分布,每个组件都有自己的适用场景和独特优势
319.下列选项中,分布式数据库系统特点不包括( D )
A:独立透明性
B:集中节点结合
C:易于扩展性
D:半透明性
解析:
分布式数据库系统的特点:
1、独立透明性;
2、集中节点结合;
3、复制透明性;
4、易于扩展性。
320.平滑处理有哪些处理方式?( ABC )
A:分箱
B:回归
C:聚类
D:分类
解析:平滑处理旨在帮助去掉数据中的噪声,常用的方法包括分箱、回归和聚类等
321.HBase是一个适合海量数据存储能支持线上业务实时查询的框架,以下不属于其特点的是( D )?
A:高可靠性
B:高性能
C:面向列
D:基于内存
解析:HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库。
322.关于Hadoop生态圈组件Sqoop是( C )。
A:工作流引擎
B:资源管理系统
C:ETL工具
D:分布式文件系统
解析:Sqoop是一款apache旗下的“hadoop和关系型数据库数据传输”工具。
323.大数据处理分析过程中的计算模式主要有哪些?( ABCD )
A:批处理计算
B:流计算
C:查询分析计算
D:图计算
解析:批处理计算、流计算、查询分析计算、图计算
324.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件Hive的功能,描述正确的是?( B )
A:可扩展的分布式数据库,支持大表的结构化数据存储
B:数据仓库基础架构,提供数据汇总和命令行即席查询功能
C:可扩展的机器学习和数据挖掘库
D:用于并行计算的高级数据流语言和执行框架
解析:HBase:可扩展的分布式数据库,支持大表的结构化数据存储。 Hive:数据仓库基础架构,提供数据汇总和命令行即席查询功能。 Mahout:可扩展的机器学习和数据挖掘库。 Pig:用于并行计算的高级数据流语言和执行框架。
325.某系统需要统计员工订单数据以此考核员工业绩,通过DataWorks将本地订单数据同步到MaxCompute,通过分析得到客户对员工的好评率。实验步骤是( D )?
A:在DataWorks上传CSV数据-将本地MySQL数据导出CSV文件一编写SQL查询-数据分析
B:将本地MySQL数据导出CSV文件-编写SQL查询-在DataWorks上传CSV数据-数据分析
C:将本地MySQL数据导出CSV文件-在DataWorks上传CSV数据-数据分析-编写SQL查询
D:将本地MySQL数据导出CSV文件-在DataWorks上传CSV数据-编写SQL查询-数据分析
解析:
该场景下,业务数据存储在业务数据库Mysql中,上传Dataworks过程应如下:
1、首先从Mysql导出业务数据库,存储CSV;
2、将CSV文件导入Dataworks;
3、按需编写SQL查询出指标数据;
4、数据分析。
326.根据颜色的不同来反映不同区域的降水量,这是数据可视化在什么学科上的应用?( B )
A:区域地理学
B:可视性分析学
C:空间可视化
D:信息学
解析:“根据颜色不同来反映不同区域的降水量”体现了可视分析学
327.关于GMM基于模型的聚类,下列选项中哪些是正确的?( A )
A:借助于一些统计模型来获得数据集的聚类分布信息
B:采用图聚类方法进行聚类分折时,首先是建立与具体问题相适应的图
C:利用模型来预测数据集合中未知样本的分类
D:通过稀疏区域来划分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
解析:基于模型的聚类算法借助于一些统计模型来获得数据集的聚类分布信息。该方法假定数据集是由有限个概率分布模型共同作用生成的。
328.阿里云MaxCompute连接工具中,适用于初次体验者、数据分析师、安全管理员且不需要手动安装的是哪种工具?( A )
A:查询编辑器MaxCompute控制台
B:odpscmd
C:DataWorks连接
D:MaxCompute Studio
解析:链接:https://help.aliyun.com/document_detail/252783.html
查询编辑器(MaxCompute控制台):不需要手动安装,初次体验及测试MaxCompute的使用者:可以通过查询编辑器,使用公开数据集快速体验MaxCompute的核心功能。 适用于初次体验,数据分析师、安全管理员
329.以下哪些场景属于数据采集? ( ABC )
A:用户画像
B:企业业务数据收集
C:实时推荐
D:客户社会关系挖掘
解析:用户画像、企业业务数据收集、实时推荐
330.阿里云大数据产品中属于大数据分析与可视化类产品的有哪些?( ACD )
A:DataV数据可视化
B:智能开放搜索 OpenSearch
C:Quick Audience智能用户增长
D:Quick BI数据可视化分析
解析:DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的阿里云产品;
智能开放搜索 OpenSearch是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台;
Quick Audience集数据资产构建、用户分析、精准营销投放、跨端社交互动和全域会员管理为一体的全域消费者运营平台;
数据可视化分析工具(中国唯一入选Gartner ABI魔力象限的BI产品),无缝对接各类云上数据库和自建数据库,大幅提升数据分析和报表开发效率
331.阿里云大数据产品中属于大数据分析与可视化类产品的有哪些?( ACD )
A:DataV数据可视化
B:智能开放搜索 OpenSearch
C:Quick Audience智能用户增长
D:Quick BI数据可视化分析
解析:DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的阿里云产品;
智能开放搜索 OpenSearch是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台;
Quick Audience集数据资产构建、用户分析、精准营销投放、跨端社交互动和全域会员管理为一体的全域消费者运营平台;
数据可视化分析工具(中国唯一入选Gartner ABI魔力象限的BI产品),无缝对接各类云上数据库和自建数据库,大幅提升数据分析和报表开发效率
332.Logical Optimizer在Hive的SQL语句执行过程中的作用是什么?( A )
A:重新逻辑查询计划
B:解析查询SQL
C:生成逻辑查询计划
D:优化物理查询计划
解析:重写查询计划(logical optimizer)
333.Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,下列选项中,哪些是Spark的核心组件?( ABC )。
A:Spark Streaming
B:Spark SQL
C:Spark Graphx
D:Spark IO
解析:Spark的核心组件: Spark SQL、Spark Streaming、 GraphX、Spark MLlib、Spark Core
334.在数据可视化的图表选择中,下列选项中属于局部整体型图表的是? ( ABC )
A:饼图
B:百分比堆积面积图
C:百分比堆积柱形图
D:散点图
解析:局部整体型图表,包括饼图、圆环图、散点复合饼图系列、马赛克图、百分比堆积柱形图、百分比堆积面积图等约20张图表
335.人们常使用阿里云DataWorks进行数据集成,该产品提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。以下关于DataWorks数据集成说法中正确的是( BCD )。
A:离线同步场景下,不支持设置离线同步任务的调度周期
B:支持数据库、数仓、NoSQL数据库、文件存储、消息队列多种不同异构数据源之间的数据同步
C:支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通
D:支持安全控制与运维监控,保障数据同步的安全、可控
解析:链接:https://help.aliyun.com/document_detail/113298.html 离线同步场景下,支持设置离线同步任务的调度周期; 支持数据库、数仓、NoSQL数据库、文件存储、消息队列等近50多种不同异构数据源之间的数据同步; 支持在各类复杂网络环境下,连通数据源的网络解决方案,无论数据源在公网、IDC还是VPC内,均可使用DataWorks数据集成实现网络连通; 支持安全控制与运维监控,保障数据同步的安全、可控。
336.Spark Streaming是Spark核心API的扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理框 架。在Spark Streaming 工作机制中,哪个组件是负责接收DStream输入流?( A )
A:Receiver
B:Executor
C:Cluster Manager
D:SparkContext
解析:输入流接收器(Receiver)负责接入数据,是接入数据流的接口规范。
337.下列对Hadoop生态组件Mahout,描述正确的是?( C )
A:可扩展的分布式数据,支持大表的结构化数据存储
B:数据仓库基础架构,提供数据汇总和命令行即席查询功能
C:可扩展的机器学习和数据挖掘库
D:用于并行计算的高级数据流语言和执行框架
解析:Mahout:可扩展的机器学习和数据挖掘库。 HBase:一个可扩展的分布式数据库,支持大表的结构化数据存储。 Pig:一个支持并行计算的高级的数据流语言和执行框架。 Hive:一个建立在 Hadoop 上的数据仓库基础构架。
338.Hologres采用可扩展的MPP架构全并行计算,向量化算子发挥CPU极致算力,ORC格式列存优化索引,SSD存储优化io,支持PB级数据( D )。
A:联机事务处理(OLTP)
B:联邦查询,外表加速(Federation)
C:高性能主健点查(Serving)
D:亚秒级交互式分析(OLAP)
解析:https://help.aliyun.com/document_detail/113648.html 亚秒级交互式分析 Hologres采用可扩展的大规模并行处理(MPP)架构全并行计算,通过向量化算子发挥CPU最佳算力,基于AliORC压缩存储,面向SSD存储优化IO吞吐,支持PB级数据亚秒级交互式分析体验。
339.关于开源大数据开发平台E-MapReduce(简称EMR)的特点,描述正确的是?( ABDE )
A:稳定可靠的开源组件
B:易用性
C:高成本
D:弹性
E:深度整合
解析:https://help.aliyun.com/document_detail/28069.html 稳定可靠的开源组件、节约成本、易用性、弹性、深度整合
340.企业业务数据是数据采集的重要来源之一,下面关于企业业务数据描述正确的是?( A )
A:企业业务数据指业务系统在运行过程产生的数据直接记录在数据库中
B:企业业务数据指业务系统在运行过程产生的数据直接记录在文件中
C:企业业务数据指业务系统在运行过程产生的日志文件直接记录在数据库中
D:企业业务数据指在业务系统中产生的任何数据。
解析:企业业务数据指业务系统在运行过程产生的数据直接记录在数据库中
341.Mapreduce是一个分布式运算程序的编程框架,关于Mapreduce,描述正确的是( A )。
A:适合海量静态数据(批数据)计算
B:磁盘IO开销不大
C:易编程,适合实时计算
D:是分布式计算框架,当一台机器失败后,可以手动切换至其他节点运行该任务
解析:MapReduce的优点: 1、易于编程。用户只关心业务逻辑,实现框架的接口。 2、良好的扩展性。可以动态增加服务器,解决计算资源资源不足问题。 3、高容错性。任何一台机器挂掉,可以将任务转移到其他节点。 4、适合海量数据计算(TB/PB),几千台服务器共同计算。 缺点:不擅长实时计算
342.在数据预处理的中,数据转化策略常见有五种,以下选项中数据转化策略与解释对应的有( ABC )。
A:数据泛化处理指数据对象抽象化。把相对低层的值用较高层概念替换来汇总数据
B:属性构造处理根据已有属性集构造新的属性,并加入到现有的属性集合中,后续数据处理直接使用
C:规范化处理,将属性性值按比例缩放至特定的区间
D:分类处理指对数据进行分类汇总操作
解析:数据泛化处理就是用更抽象(更高层次)的概念来取代低层次或数据层的数据对象。
343.Apache Spark是一款常用于大数据工作负载的开源分布式处理系统,关于Spark核心组件的作用,描述错误的是?( A )
A:spark streaming提供离线计算组件
B:spark SQL是一个用来处理结构化数据的Spark组件
C:Spark Core基于内存多语言执行的核心引擎
D:Graphx是一个分布式图处理框架
解析:Spark Streaming提供流计算组件。
344.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件Hive,描述正确的是?( B )
A:工作流引擎
B:数据仓库
C:分布式计算框架
D:列式数据库
解析:数据仓库工具。
345.数据采集中,采集的数据分为离线数据和实时数据,其中属于离线数据的是( AC )。
A:业务数据
B:日志数据
C:网络数据
D:传感器设备数据
解析:离线数据包含业务数据、网络数据。
346.文件系统(File System)用于存储()类型的数据。( A )
A:半结构化数和非结构化数据
B:结构化数据和非结构化数据
C:半结构化数据和结构化数据
D:非结构化数据
解析:文件系统(File System)用于存储半结构化数据和非结构化数据。
347.以下选项中,关于Hive的描述正确的是? ( ACD )
A:Hive是构建在Hadoop上的数据仓库框架
B:Hive本质操作是依赖Hadoop执行Hive自己的计算任务。Hive是一个计算引擎
C:某种程度上可以看作是用户编程接口,本身不存储
D:依赖分布式文件系统HDFS存储数据
解析:Hive是一个构建于Hadoop顶层的数据仓库工具,主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析处理。Hive在某种程度上可以看作是用户编程接口,本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据。
348.Spark Streaming是Spark核心组件,可以实现高吞吐量的,具备容错机制的实时流数据处理框架,在Spark Streaming工作机制中,哪个组件是流处理系统中所有功能的主要入口点?( D )
A:Recelver
B:Executor
C:cluster Manager
D:Sparkcontext
解析:StreamingContext是所有流功能的主要入口点
349.机器学习PAI(Platform of Artificial lnteligence) 是阿里云人工智能平台。采用机器学习PAI平台可视化,构建算法模型步骤,正确的是( C )。
A:新建工作空间一创建模型一关联资源一操作工作流一效果预览及发布
B:新建工作空间一关联资源一操作工作流一创建模型一效果预览及发布
C:新建工作空间一关联资源一创建模型一操作工作流一效果预览及发布
D:新建工作空间一创建模型一操作工作流一关联资源一效果预览及发布
解析:新建工作空间一关联资源一创建模型一操作工作流一效果预览及发布。
350.Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的( B )领域经典算法的实现,旨在帮助开发人员更加方便快捷的实现算法,创建只能应用程序。
A:人工智能
B:机器学习
C:云计算
D:数据分析
解析:Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
351.数据源指的是DataWorks所处理的数据的来源,以下关于数据源说法错误的是?( C )
A:数据源可以是一个数据库或者数据仓库
B:DataWorks支持MySQL、HBase、Kafka等类型的数据源
C:只支持关系型数据库作为数据源
D:各种数据源可以进行转换
解析:数据源支持Oracel、mysql等多种数据库或数据仓库; DataWorks支持MySQL、HBase、Kafka等类型的数据源; Dataworks同时支持OTS、OSS、FTP等文件数据库和非关系型数据库; DataX可以实现数据源相互转换
352.回归属于有监督学习算法,以下哪个不属于回归算法应用的场景?( B )
A:根据新输入父亲的身高来分析其孩子的身高
B:分析用户是否会购买电脑
C:根据现有房价信息,预测未来的房价
D:根据历史的天气数据,预测未来的天气
解析:回归算法:回归分析是一种统计学上分析数据的方法,目的在于了解两个或多个变量之间是否相关、相关方向和强度,并简历数学模型以便观察特定变量来预测研究者感兴趣的变量。预测身高属于回归算法;是否购买属于分类算法;预测房价属于回归算法;预测天气属于回归算法
353.监督学习利用一组已知类别的样本来训练模型,这些输入的数据又被称为什么?( B )
A:测试数据
B:训练数据
C:验证数据
D:结果数据
解析:训练集用来训练模型,测试集用来选择最优模型,验证集用来验证模型复杂度
354.按照学习方式不同进行分类,以下哪个不属于机器学习的分类?( D )
A:监督学习
B:无监督学习
C:半监督学习
D:全监督学习
解析:目前机器学习主流分为:监督学习,无监督学习,强化学习,半监督学习无全监督学习概念
355.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的( A )作用?
A:弹性能力与扩展型
B:集成AI能力
C:支持流式采集和近实时分析
D:数据存储能力
解析:https://help.aliyun.com/document_detail/27800.html
弹性能力与扩展性 存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。 支持实时根据业务峰谷变化分配资源。
356.Hologres基于行存表的主键索引和查询引擎的短路径优化,支持每秒数十万QPS高性能服务型点查,支持高吞吐更新,相比开源系统性能提升10倍以上。体现了Hologres在大数据处理与分析中的什么作用?( C )
A:亚秒级交互式分析(OLAP)
B:联邦查询,外表加速(Federation)
C:高性能主键点查(Serving)
D:联机事务处理(OLTP)
解析:https://help.aliyun.com/document_detail/113648.html
高性能主键点查 基于行存表的主键索引和查询引擎的短路径优化,Hologres支持每秒数十万QPS高性能服务型点查、支持高吞吐更新,相比开源系统性能提升10倍以上,可用于实时加工链路的维表关联、ID-Mapping等场景。
357.( C )平台将基础设施(计算资源和存储)作为服务出租。如阿里云的各种云资源、自己购买原材料制作披萨。
A:SaaS
B:PaaS
C:laaS
D:Daas
解析:IaaS将基础设施(计算资源和存储)作为服务出租
358.在数据预处理中( D )策略可以检测及删除不相关、弱相关和冗余的属性或维,它的分类为主成分分析、属性子集选择。
A:数据立方体
B:数据压缩
C:数据规约
D:维规约
E:离散化和概念分层生成
解析:维归约(dimensionalityreduction)减少所考虑的随机变量或属性的个数,方法包括小波变换、主成分分析,把原数据变换或投影到较小的空间。属性子集选择也是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测或删除。
359.下列关于Hadoop的生态组件 Sqoop概念的描述,哪些说法是正确的?( B )
A:是一个基于工作流引擎的开源框架,提供对Hadoop。MapReduce和Pig Jobs的任务调度与协调
B:是一种用于在HDFS和RDMS之间传输数据的工具
C:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
D:是大数据集日志收集的框架
解析:是一种用于在HDFS和RDMS之间传输数据的工具
360.在Spark SQL架构中,哪个组件负责将物理执行任务解析成Spark能运行的任务?( D )
A:Metastore
B:CacheManager
C:Physical Plan
D:Execution
解析:Spark要想很好地支持SQL,就需要完成解析(Parser)、优化(Optimizer)、执行(Execution)三大过程。Catalyst优化器在执行计划生成和优化的工作时候,它离不开自己内部的五大组件,具体如下所示。 Parse组件:该组件根据一定的语义规则(即第三方类库ANTLR)将SparkSql字符串解析为一个抽象语法树/AST。 Analyze组件:该组件会遍历整个AST,并对AST上的每个节点进行数据类型的绑定以及函数绑定,然后根据元数据信息Catalog对数据表中的字段进行解析。 Optimizer组件:该组件是Catalyst的核心,主要分为RBO和CBO两种优化策略,其中RBO是基于规则优化,CBO是基于代价优化。 SparkPlanner组件:优化后的逻辑执行计划OptimizedLogicalPlan依然是逻辑的,并不能被Spark系统理解,此时需要将OptimizedLogicalPlan转换成physical plan(物理计划)。 CostModel组件:主要根据过去的性能统计数据,选择最佳的物理执行计划。
361.配置阿里云DataWorks中的离线同步功能的正确步骤是什么?( A )
A:新建数据源一新建离线同步节点一选择数据来源一选择数据去向一配置字段的映射关系一配置作业速率上限、脏数据检查规则等信息一配置调度属性
B:新建数据源-选择数据来源一新建离线同步节点一选择数据去向一配置字段的映射关系一配置作业速率上限、脏数据检查规则等信息一配置调度属性
C:新建数据源一新建离线同步节点一选择数据来源一选择数据去向一配置作业速率上限、脏数据检查规则等信息一配置字段的映射关系一配置调度属性
D:新建数据源一新建离线同步节点一选择数据来源一选择数据去向一配置字段的映射关系一配置调度属性一配置作业速率上限、脏数据检查规则等信息
解析:https://help.aliyun.com/document_detail/137718.html?spm=a2c4g.11186623.0.0.7c888554Lf7Dy5
步骤一:新建离线同步节点
步骤二:配置同步网络链接
步骤三:配置数据来源与去向
步骤四:配置字段映射关系
步骤五:配置通道
步骤六:配置调度属性
步骤七:提交并发布任务
362.( C )是淘宝开源的一套高性能文件存储系统。为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求。
A:MogileFS
B:GFS
C:TFS
D:FastDFS
解析:Taobao File System(TFS)是淘宝内部使用的分布式文件系统。
363.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件ZooKeeper,描述正确( A )
A:用于分布式应用的高性能协调服务
B:是一种支持Apache Hadoop集昨的安装、部署、配置和管理的工具
C:是一种用于在HDFS和RDMS之问传输数据的工具
D:是一个基于工作流引整的开源框架,提供对Hadoop、MapReduce和Pig Jobs的任务调度与协调
E:是大数据集日志收集的框架
解析:ZooKeeper 是一个用于分布式应用的高性能协调服务。
364.关于阿里云大数据产品实时数仓Hologres的描述,正确的是?( ACD )
A:支持PB级数据多维分析 (OLAP) 与即席分析 (Ad Hoc)
B:支持高并发低延迟的离线数据服务 (Serving)
C:数据实时写入、实时更新,写入即可见,与Flink原生集成,支持高吞吐、低延时、有模型的实时数仓开发,满足业务洞察实时性需求
D:标准SQL协议,无缝对接主流BI和SQL开发框架,无需应用重写。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入仓
解析:Hologres支持高并发低延迟的在线数据服务(Serving)。 https://help.aliyun.com/document_detail/605017.html?spm=a2c4g.169917.0.i14
数据实时写入、实时更新,无需批处理,写入即可见。Hologres与Flink、Spark原生集成,支持高吞吐、低延时、有模型、高质量的实时数仓开发,满足业务洞察实时性需求。 标准SQL接口,兼容PostgreSQL 11协议,无缝对接主流BI和SQL开发框架,支持19+款主流BI工具,无需应用重写,无额外学习成本。支持数据湖场景,支持JSON等半结构化数据,OSS、DLF简易入湖入仓。 https://help.aliyun.com/document_detail/113664.html?spm=a2c4g.113648.0.0.778678251MCFeN
365.Pig是Hadoop生志圈的组件之一,Pig的数据处理语言采取 ()方式,一步一步地进行处理。( A )
A:数据流
B:并行计算
C:分布式计算
D:分布式协调服务
解析:Pig的数据处理语言是数据流方式的,一步一步的进行处理
366.大数据,指的是所涉及的数据量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策的资讯。以下哪一个不属于大数据的4V特征?( C )
A:Volume数据体量大
B:Velocity数据变化快
C:Value价值密度高
D:Variety数据类型多
解析:大数据4V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型
367.小明在使用阿里云Tunnel上传数据时,有时间类型Datatime数据文件log.txt内容如:20140209101000,以下上传语法正确的是( A )?
A:tunnel upload log.txt test_table -dfp "yyyy-MM-dd HH:mm:ss"
B:tunnel upload log.txt test_table -dfp "yyyyMMddHHmmss"
C:tunnel upload log.txt test_table -dfp "yyyyMMddHHmiss"
D:tunnel upload log.txt test_table -fd "yyyyMMddHHmiss"
解析:
-dfp 指定DATETIME类型数据格式,默认格式为yyyy-MM-dd HH:mm:ss。
-fd 指定本地数据文件的列分割符,默认值为英文逗号(,J12+8的数据上传,可以通过命令行指定用户数据日期格式的format pattern。
如:yyyyMMddHHmmss: 数据格式20140209101000
yyyy-MM-dd HH:mm:ss(默认):数据格式2014-02-09 10:10:00
yyyy年MM月dd日: 数据格式2014年09月01日
368.下列关于MaxCompute项目空间保护理解错误的是( D )?
A:项目空间的数据保护,是否允许数据流出项目空间,默认值为false
B:一旦项目空间开启项目空间数据保护后,所有的数据只能在项目空间内流动。
C:当需要将一个项目空间A的数据流转到项目空间B时,可以通过为A项目空间设置可信项目空间B达到需求。
D:项目空间用户角色有操作权限
解析:开启项目空间的数据保护机制。 项目空间Owner或授予Super_Administrator角色的用户有操作权限,项目空间Owner或授予Super_Administrator角色的用户有操作权限
369.DataWorks通过智能数据建模、全域数据集成、高效数据生产、主动数据治理、全面数据安全、数据分析服务六大全链路数据治理的能力,帮助企业治理内部不断上涨的“数据悬河”,释放企业的数据生产力,那么下列哪个( B )选项不属于六大链路内容
A:ER建模
B:数据存储
C:任务统一调度
D:数据库迁移
解析:DataWorks是一款工具,不会存储数据,需要添加存储计算引擎
370.基于阿里云QuickBI产品功能,以下描述错误的选项是( C )
A:支持线上、本地、云端等多种环境的数据源接入
B:支持跨源、异构的数据关联及查询
C:OLTP事务和查询处理
D:在PC端配置完成后,能在移动端和大屏终端自动适配
解析:OLAP灵活智能分析能力,自由上卷下钻、联动跳转,智能机器人预警预测分析
371.下列哪个( C )选项不属于在PAI-Studio上传自定义算法。
A:通过PAI平台AI资产管理中的算法管理创建自定义算法
B:在算法管理页面选择添加版本
C:在PAI-Studio页面进行算法发布
D:在PAI-Studio页面,通过拖拉拽的方式选择合适控件至中间页面参数设置区域
解析:在算法管理页面选择发布,可以发布到PAI-Studio
372.Hologres无缝对接MaxCompute,无需数据移动,支持外表透明加速BI访问,支持冷热数据关联分析,支持百万级每秒数据高速同步,支持OSS外表读写,简化数据入湖入仓。上述文字中体现了Hologres在大数据处理与分析中的( D )作用?
A:亚秒级交互式分析(OLAP)
B:高性能主键点查(Serving)
C:联机事务处理(OLTP)
D:联邦查询,外表加速(Federation)
解析:联邦查询,外表加速 Hologres无缝对接MaxCompute,支持外部表透明加速查询,相比原生MaxCompute访问加速5-10倍,支持冷热数据关联分析,同时支持MaxCompute与Hologres之间百万行每秒高速同步,支持OSS外部表读写,简化数据入湖入仓。
链接:https://help.aliyun.com/document_detail/113648.html
373.在数据可视化的图表选择中,哪些属于数据关系型图表?( BCD )
A:统计直方图
B:散点图
C:雷达图
D:曲线图
解析:数据关系型图表包括散点图和雷达图、曲线图
374.大数据处理流程一般分为哪几个步骤?( ABDE )
A:数据采集
B:数据预处理
C:数据计算
D:数据分析
E:数据展现
解析:大数据处理流程包括:数据采集、数据预处理、数据存储、数据分析与挖掘、数据可视化。
375.HDFS中的文件是以数据块的形式划分与存储的,Hadoop3:x的HDFS中默认Block Size的大小是?( C )
A:32MB
B:64MB
C:128MB
D:256MB
解析:从2.7.3版本开始,官方关于Data Blocks 的说明中,block size由64 MB变成了128 MB的。
376.云计算和大数据的关系密不可分,下列关于云计算和大数据的关系,描述正确的是( CD )
A:大数据为云计算提供了技术基础
B:云计算为大数据提供用武之地
C:云计算解决大数据应用中存在的存储、计算等问题,所以云计算是大数据的一种技术展现形式
D:大数据是以海量数据为基础,为各种计算服务技术提供数据支撑,保证技术应用(云计算、物联网等)的可靠性
解析:云计算为大数据提供技术基础、大数据为云计算提供了用武之地。
377.批处理计算模式已被广泛的用于大数据应用开发中,用户只需要提交计算任务,计算机根据任务切划分批量的数据操作执行计算,此过程期间,用户无需再与计算机进行交互。由此可以知道批处理计算的特点有( AC )
A:脱机
B:联机
C:成批处理
D:独立处理
解析:批处理操作系统的主要特点是:脱机、多道和成批处理。
378.与关系型数据库相比,以下选项中是对NoSQL特点描述正确的是?( D )
A:支持事务处理
B:支持SQL标准
C:支持Join操作
D:不需要固定的架构
解析:nosql特点: 1、灵活的可扩展性; 2、灵活的数据模型; 3、NoSQL可以凭借自身良好的横向扩展能力,充分自由利用云计算基础设施,很好地融入到云计算环境中。 4、nosql有着非常高的读写性能,特别是在大数据量之下。 5、高可用。
379.以下哪些选项是数据挖掘算法?( ABCDE )
A:分类
B:聚类
C:协同过滤
D:回归分析
E:关联规则
F:遗传算法
解析:分类、聚类、回归分析、关联规则、协同过滤
380.阿里云大数据产品MaxCompute的特点有哪些?( ABCD )
A:简单易用
B:匹配业务发展的弹性扩展
C:支持多种分析场景
D:开源的平台
解析:链接:https://help.aliyun.com/document_detail/27800.html
产品优势 MaxCompute的主要优势如下:
简单易用 面向数据仓库实现高性能存储、计算。 预集成多种服务,标准SQL开发简单。 内建完善的管理和安全能力。
免运维,按量付费,不使用不产生费用。 匹配业务发展的弹性扩展能力 存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。
支持多种分析场景 支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。
开放的平台 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。 支持与Airflow、Tableau等开源和商业产品灵活组合,构建丰富的数据应用
381.DataWorks数据集成支持哪些方式?( ABC )
A:离线同步
B:实时同步
C:离线全增量同步
D:不支持实时全增量
解析:链接:https://help.aliyun.com/document_detail/113298.html
DataWorks数据集成支持离线同步、实时同步,以及离线和实时一体化的全增量同步。
382.为了处理流式数据,满足流数据的应用价值,流计算系统应该具备的要求有( ACD )
A:高性能
B:精确性
C:实时性
D:分布式
解析:流计算系统要求: 高性能 、海量、实时性、分布式、易用性、可靠性
383.我们购买电影票前,常常会打开支付宝的“电影演出”小程序,看看电影口碑评分,影评的真实性会影响消费者的购买行为。收集的数据有真有假,那么会对大数据分析的结果有影响。体现了大数据的( E )特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:大数据的4v特征分别是Volume(大量性)、Velocity(高速性)、Variety(多样性)、Value(价值性)。根据“看看电影口碑评分,影评的真实性会影响消费者的购买行为。收集的数据有真有假,那么会对大数据分析的结果有影响。“;体现了大量的数据并没有体现大量的价值。即价值密度低,符合Value价值性
384.下列关于HDFS读写说法正确的有?( A )
A:一次写入,多次读
B:一次写入,一次读
C:多次写入,多次读
D:多次写入,一次读
解析:一次写入多次读取:HDFS的模式是一次写入多次读取,没有随机修改编辑的操作,只能对既有的数据进行追加。
385.下列关于Azkaban概念的描述错误的?( A )
A:Azkaban是由Linkedin公司推出的任务调试器,它的配置是通过简单的update方式对数据表进行修改实现
B:Azkaban使用job文件建立任务之间的依赖关系,并提供一个易用的Web界面供用户管理和调度工作流
C:Azkaban开箱即用,可以通过Shell执行Job
D:Azkaban主要用于在一个工作流内以一个特定的顺序运行一组工作和流程
解析:Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系。
386.Apache Spark是一种用于大规模数据处理的统一( C )引擎。
A:抽象
B:集成
C:分析
D:存储
解析:Apache Spark是用于大规模数据处理的统一分析引擎
387.Hadoop可以自动保存数据的多个副本,并且可以自动将失败的任务重新分配。上述文本体现了Hadoop的(A)特点。
A:高容错
B:高效率
C:高扩展
D:高可靠
解析:高容错:自动将失败的任务重新分配
388.Spark Streaming的执行流程中包含哪些步骤?( ACDE )
A:Input data stream
B:Show Processed Data
C:Spark Engine
D:Batches of Processed Data
E:Batches of input data
解析:Spark Streaming的执行步骤为:input data stream->spark streaming->batches of input data->spark engine->batches of processed data
389.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。下列选项中,属于数据可视化产品有( ABD )
A:Echarts
B:PowerBI
C:TXT
D:Tableau
解析:数据可视化软件有: echarts、 FineBI、PowerBI、 Tableau。
390.Spark SQL向用户提供标准的编程接口组件是?( B )
A:Metastore
B:JDBC/ODBC
C:CacheManager
D:Physical Plan
解析:https://help.aliyun.com/document_detail/162684.html Hologres为您提供完全兼容PostgreSQL的连接(JDBC/ODBC)接口,您可以通过该接口将SQL客户端工具连接至Hologres。 Hive Metastore作为元数据管理中心,支持多种计算引擎的读取操作,例如Flink、Presto、Spark等; 提供JDBC/ODBC接口供第三方工具借助Spark进行数据处理; CacheManager是Spark中用于缓存管理的组件; Physical Plan:在物理计划阶段,Spark SQL获取一个逻辑计划,并使用与Spark执行引擎匹配的物理操作来生成一个或多个物理计划,然后使用基于代价的模型在这个多个物理计划中选择最优的那个;
391.Spark框架依据其内存计算的特性增加了大数据分析计算的性能;Spark SQL在一定程度上;提升了SQL在大数据计算框架的效率;Spark Streaming提供了流式计算的能力;Spark MLlib支持机器学习。下面关于这几大技术描述正确的是?( ABC )
A:Spark的处理机制是在做迭代计算时,只需要第一次从文件系统HDFS中读取数据,然后将数据放入内存中,在后续的迭代计算中,直接从内存读取,提升处理效率
B:Spark SQL执行计划生成和优化都由Catalyst负责
C:Spark Streaming基本原理将实时输入数据流以时间片(秒级)为单位进行拆分,然后经Sparki引擎以类似批处理的方式处理每个时间片数据
D:Spark提供了一个基于少量数据的机器学习库,它提供了常用机器学习算法的分布式实现,即MLlib库
解析:Spark提供了一个基于海量数据的机器学习库,它提供了常用机器学习算法的分布式实现
392.Hadoop集群支持热插拔,在增加或删除节点时无需重新启动集群,极大提高了集群服务性能。体现了hadoop的( B )特点
A:高可靠
B:高扩展
C:高效率
D:高容错
E:低成本
解析:高扩展性:增添或者删除DataNode(支持热插拔,即无需重新启动集群),都会通知NameNode及时更新metadata;
393.在Hive的架构中,哪个组件提供了元数据存储模块,用于保存表模式与其他系统元教据?( D )
A:HWI
B:Driver
C:JDBC
D:Metastore
解析:Metastore用于保存表模式与其他系统元教据
394.数据可视化可以帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。使用BI商业智能软件的主要目标用户是( A )
A:应用开发人员
B:业务分析师
C:开发人员
D:运维人员
解析:应用开发人员
395.使用网络爬虫对微博信息进行采集时,会使用到选项中哪些爬虫技术?( AC )
A:通用网络爬虫
B:横向网络爬虫
C:聚集网络爬虫
D:增量网络爬虫
解析:通用网络爬虫是一种广泛应用的爬虫技术,它以广度优先或深度优先的方式遍历互联网上的网页,通过解析页面内容获取所需信息。对于微博信息的采集,通用网络爬虫可以用来获取用户信息、微博内容、评论等公开的数据。通用网络爬虫具有高效快速的特点,可以广泛地收集大量的数据。
然而,微博平台存在着一些限制和挑战,比如反爬机制、用户隐私保护等。为了克服这些问题,聚集网络爬虫被引入。聚集网络爬虫相对于通用网络爬虫来说更加专注于特定网站或应用,能够更好地适应微博平台的特殊需求。它能够模拟真实用户的行为,按照一定的规则和策略进行请求,绕过反爬机制,减少被封禁风险。聚集网络爬虫还能够通过分析微博网页结构和API接口,有针对性地获取更多的数据,提高采集效率和质量。
396.“网络数据采集"是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程,下列选项中,对网络数据采集描述正确的是( ABD )
A:网络数据采集可以通过爬虫技术实现采集
B:网络数据采集可以通过网站对外公开的接口实现获取数据
C:网络数据采集只能获取片、音频和视频,不能获取其它信息
D:网络数据采集主要作用就是将网页中非结构化的数据抽取出来,存储在本地数据文件中,经过简单处理以结构化的形式存储
解析:网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。
397.阿里云智能数据建设与治理 Dataphin属于大数据产品体系中哪一类产品?( B )
A:智能搜索与推荐
B:数据开发和治理
C:大数据计算与分析
D:大数据工具与服务
解析:链接:https://help.aliyun.com/document_detail/109739.html Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出,一站式提供数据采、建、管、用全生命周期的大数据能力,以助力企业显著提升数据治理水平,构建质量可靠、消费便捷、生产安全经济的企业级数据中台。
398.阿里云数据集成 Data Integration属于阿里云大数据产品体系中的哪一类产品?( C )
A:数据开发和治理
B:智能搜索与推荐
C:大数据工具与服务
D:大数据分析与可视化
解析:属于大数据工具与服务。
399.下列选项中关于MapReduce描述正确的是( C )。
A:支持离线数据与实时数据的处理
B:在对数据处理过程中除了支持Map与Reduce方法外还可以自定义方法来完成数据的处理
C:使用在分布式计算框架,所以当一台机器失败后,会导致计算任务重启
D:过多的磁盘操作缺乏对分布式内存的支持,不能高效的支持迭代式计算
解析:MapReduce处理数据过程主要分成Map和Reduce两个阶段。首先执行Map阶段,再执行Reduce阶段。Map和Reduce的处理逻辑由用户自定义实现,但要符合MapReduce框架的约定。 MapReduce适合处理离线的海量数据. https://help.aliyun.com/document_detail/27875.html?spm=a2c4g.27874.0.0.4ecd5ac41yNcvk
400.阿里云大数据体系由多个大数据组件组成,下列技术中,哪一个属于阿里云大数据体系?( D )
A:Yarn
B:ZooKeeper
C:Pig
D:DataWorks
解析:Yarn是开源hadoop体系中的资源调度框架; Zookeeper是开源hadoop体系中的协调服务; pig是开源数据库; DataWorks是阿里云数据工场
401.大数据通常是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通常会用“4V"来描述大数据的特点,包括( ABCD )。
A:Volume
B:Variety
C:Velocity
D:Value
E:Vitality
解析:大数据4V的特征:Volume规模性、Variety多样性、Velocity高速性、Value价值型。
402.Google是Hadoop的思想之源,2006年3月份份,Hadoop正式诞生,其名字来源于Doug cutting儿子的玩具大象,随着时间的推移,Hadoop延申出了庞大的生态技术圈,那么下列关于Hadoop描述正确的有哪些?( ABCDF )
A:Cloudera内部集成了很多的大数据框架,对应的产品为CDH,是Hadoop的发行版本之一
B:Hadoop有四大优势、高可靠、高扩展、高效性、高容错性
C:在Hadoop1.x时代,Hadoop的MapReduce同时处理业务的逻辑运算和资源调度,耦合性较大。在Hadoop2.x时代,Hadoop增加了Yarn,Yarn只负责资源调度,MapReduce只负责计算
D:Flume、Kafka、Sqoop等数据传输组件均属于Hadoop生态圈技术
E:Hive、Spark、Flink等技术属于大数据计算层,不属于Hadoop生态圈技术
F:ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。所以Zookeeper也是Hadoop生态全技术之一
解析:Hadoop有三大发现版本,Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera内部集成了很多大数据框架。对应产品CDH。 Hortonworks文档较好。对应产品HDP。1)Apache Hadoop 官网地址:http://hadoop.apache.org/releases.html 下载地址:https://archive.apache.org/dist/hadoop/common/ 2)Cloudera Hadoop 官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html 下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/ (1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。 (2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support (3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。 (4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。 3)Hortonworks Hadoop 官网地址:https://hortonworks.com/products/data-center/hdp/ 下载地址:https://hortonworks.com/downloads/#data-platform (1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。 (2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。 (3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。 (4)Hortonworks目前已经被Cloudera公司收购。
403.关于数据可视化分析平台Quick BI的价值,描述正确的是?( ABD )
A:帮助企业构建自上而下的决策分析体系
B:实现业务流程和数据分析直接协同
C:帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用
D:形成数据消费和价值洞察的企业文化
解析:Quick BI可以带来什么价值?
帮助企业构建自上而下的决策分析体系
实现业务流程和数据分析直接协同
提升企业内各种人员的数据分析效率
形成数据消费和价值洞察的企业文化
https://help.aliyun.com/document_detail/33813.html
DataV旨在让更多的人看到数据可视化的魅力,帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警和地理信息分析等多种业务的展示需求
404.在进行数据预处理时,经常会遇到有缺失值的情况,解决此问题的方法有很多,下列选项中处理缺失值的方法有( ABD )
A:剔除含有缺失值的样本
B:变量的缺失值很多且无价值,可删除
C:转换和分箱
D:用一个特殊码代表缺失值
解析:缺失值处理方法: 直接删除法、LOCF法、虚拟变量法、 均值填补法、回归填补发
405.在数据可视化的图表选择中,下列选项中既属于类别比较型图表又属于时间序列型图表的是?( A )
A:柱形图
B:曲线图
C:矩形树状图
D:散点图
解析:类别比较型图表的数据一般分为:数值型和类别型两种数据类型,主要包括:柱形图、条形图、雷达图、坡度图、词云图等; 时间序列型图表强调数据随时间的变化规律或者趋势,X轴一般为时序数据,Y轴为数值型数据,包括折线图、面积图、雷达图、日历图、柱形图等。
406.DataV数据可视化应用的主要目标用户是?( D )
A:业务分析师
B:开发人员
C:运维人员
D:应用开发人员
解析:DataV旨在通过图形化的界面帮助不同专业背景的用户轻松搭建专业水准的可视化应用,满足会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。
407.大数据处理分析过程中,根据数据的类型不同,如存储在数据库的静态历史数据,实时的热点数据或者图形数据,从而衍生出了不同的计算模式。关于大数据处理分析的计算模式,主要分为( ABCE )
A:批处理计算
B:流计算
C:查询分析计算
D:数据存储计算
E:图计算
解析:
批处理计算:批处理计算是最常见的一类数据处理方式,主要用于对大规模数据进行批量的处理,其代表产品有MapReduce和Spark等。前者将复杂的、运行在大规模集群上的并行计算过程高度抽象成两个函数——Map和Reduce,方便对海量数据集进行分布式计算工作;后者则采用内存分布数据集,用内存替代HDFS或磁盘来存储中间结果,计算速度要快很多。 流式计算:如果说批处理计算是传统的计算方式,流式计算则是近年来兴起的、发展非常迅猛的计算方式。流式数据是随时间分布和数量上无限的一系列动态数据集合体,数据价值随时间流逝而降低,必须采用实时计算方式给出响应。流式计算就可以实时处理多源、连续到达的流式数据,并实时分析处理。目前市面上已出现很多流式计算框架和平台,如开源的Storm、S4、Spark Streaming,商用的Streams、StreamBase等,以及一些互联网公司为支持自身业务所开发的如Facebook的Puma、百度的DStream以及淘宝的银河流数据处理平台等。 交互式查询计算:主要用于对超大规模数据的存储管理和查询分析,提供实时或准实时的响应。所谓超大规模数据,其比大规模数据的量还要庞大,多以PB级计量,如谷歌公司的系统存有PB级数据,为了对其数据进行快速查询,谷歌开发了Dremel实时查询系统,用于对只读嵌套数据的分析,能在几秒内完成对万亿张表的聚合查询;Cloudera公司参考Dremel系统开发了一套叫Impala的实时查询引擎,能快速查询存储在Hadoop的HDFS和HBase中的PB级超大规模数据。此外,类似产品还有Cassandra、Hive等。 图计算:图计算是以“图论“;为基础的对现实世界的一种“图“;结构的抽象表达,以及在这种数据结构上的计算模式。由于互联网中信息很多都是以大规模图或网络的形式呈现的,许多非图结构的数据也常被转换成图模型后再处理,不适合用批计算和流式计算来处理,因此出现了针对大型图的计算手段和相关平台。市面上常见的图计算产品有Pregel、GraphX、Giraph以及PowerGraph等。
408.下列选项中,关于数据可视化图表类型,不属于类别比较型的是?( D )
A:条状图
B:瀑布图
C:坡度图
D:气泡图
解析:类别比较型图表,包括柱形图、条形图、不等宽柱形图、克利夫兰点图、桑基图、坡度图、南丁格尔玫瑰图、雷达图和词云图等
409.Pig是Hadoop生态圈的组件之一,关于Pig,描述错误的是?( D )
A:Pig是一个基于Hadoop的大规模数据分析平台
B:Pig是一个用于并行计算的高级数据流语言和执行框架
C:Pig有一套和SQL类似的执行语句,处理的对象是HDFS上的文件
D:Pig的数据处理语言采取分布式消息订阅发布方式
解析:Pig是一个基于Hadoop的大规模数据分析平台。
Pig的数据处理语言是数据流方式的,一步一步的进行处理; 数据处理语言采取分布式消息订阅发布方式描述的是Kafka消息队列的功能
410.如果要使用阿里云MaxCompute,请按照什么步骤准备项目?( D )
A:准备阿里云账号一准备RAM用户一开通MaxCompute一添加工作空间成员并设置角色一创建MaxCompute项目一进入工作空间进行开发任务
B:准备阿里云账号一准备RAM用户一添加工作空间成员并设置角色一开通MaxCompute一创建MaxCompute项目一进入工作空间进行开发任务
C:准备阿里云账号一开通MaxCompute一准备RAM用户一创建MaxCompute项目一添加工作空间成员并设置角色一进入工作空间进行开发任务
D:准备阿里云账号一准备RAM用户一开通MaxCompute一创建MaxCompute项目一添加工作空间成员并设置角色一进入工作空间进行开发任务
解析:参考:https://help.aliyun.com/document_detail/252793.html?spm=a2c4g.55800.0.0.123c57215tNhtx
步骤一:准备阿里云账号 创建阿里云账号并实名认证。
步骤二:(可选)准备RAM用户
步骤三:开通MaxCompute
步骤四:创建MaxCompute项目
步骤五:(可选)添加工作空间成员并设置角色
步骤六:准备环境及安装工具
411.下列哪几个组件属于 Spark SQL 架构?( ACD )
A:SQL Parser
B:Compiler
C:Optimizer
D:Execution
解析:Spark 的三大过程:解析(Parser)、优化(optimizer)、执行(execution)。
412.关于阿里云实时数仓Hologres的特点,描述不正确的是?( B )
A:高性能
B:高吞吐
C:高可靠
D:低成本
解析:Hologres致力于高性能、高可靠、低成本、可扩展的实时数仓引擎研发 https://help.aliyun.com/document_detail/113648.html
413.聚类是数据挖掘中常用的算法,在不同的应用场景下,需要应用不同的聚类算法。因此,聚类算法可以按照不同的类型进行分类,下面分类标准正确的是?( ABC )
A:基于划分
B:基于层次
C:基于密度
D:基于精度
解析:基于划分的聚类方法 : 基于划分、基于层次、基于密度、基于网格、基于模型、基于图的方法
414.使用MaxComputeSQL更新数据时,以下选项中说法中不正确的是( D )
A:一条SQL语句只能操作一张表
B:只能将源分区或表数据导入到新分区成表 (新分区或表可以与避分区成表相同)
C:对于非分区列,只支持重命名和新建列,不支持对列的删除
D:对于非分区列,只支持新建列,支持对列的删除
解析:对于非分区列,只支持重命名和新建列,不支持对列的删除
https://developer.aliyun.com/ask/374970
415.在Quick BI 数据可视化分析平台的四大优势中,可以拖拽式数据建模和可视化分析,符合哪种优势?( B )
A:强大的Quick数据引擎
B:快速搭建数据门户
C:智能数据分析和交互
D:安全管控不能设置权限
解析:快速搭建数据门户: 拖拽式数据建模和可视化分析,帮助您快速搭建数据门户
416.Sqoop是用于在Hadoop与传统的数据库之间进行数据的传输的工具,Sqoop可以( C )
A:Sqoop可以把数据导入到Excel中
B:Sqoop可以自动把数据存储在硬盘里
C:Sqoop可以将关系型数据库中的数据导入到HBase
D:Sqoop可以将Hadoop中的数据导出到Hive中
解析:Sqoop是一个用于在Hadoop与传统关系型数据库之间进行数据传输的开源工具。借助Sqoop,可以将关系型数据库中的数据导入到Hadoop生态系统(如HDFS、HBase)中进行分析处理,也可以将Hadoop中的数据导出到关系型数据库中进行后续处理或持久化存储。
Sqoop本身并不支持将数据直接导入到HBase,但我们可以通过将数据先导入到HDFS中,然后利用HBase提供的Bulk Load功能将数据加载到HBase中
417.关于线图,说法错误的是?( B )
A:线图又叫折线图
B:线图可以显示多个维度,但是只能显示一个度量
C:线图可以展现较大的数据集
D:当通过线图展现趋势时,必须包含一个有序因变量
解析:线图展示的是两个维度间的趋势关系
418.机器学习已经广泛的应用在各类实际场景中,对于机器学习应用的描述中,不正确的是( D )。
A:机器学习类似数据挖掘,也需要从需求业务开始,是一个逐步推进的过程
B:机器学习的算法不是一成不变的,随时间、约束条件的变更,原来的模型需要调整,甚至推翻。
C:机器学习的模型发布就是聚焦业务问题提供的解决方案,而非单纯的数据挖掘结果
D:机器学习的模型评估通过特定的程序、算法评估后,运用到实际中,必然会产生预期的效果
解析:机器学习除了优秀的模型还需合格的数据做支撑,实际生产中不是理想话的环境可能遇到很多问题达不到预期效果
419.实现精准营销服务必需知道客户需求,根据需求设计产品提供服务,下面的的说法哪个是不准确的( B )。
A:居委会过年前去走访“低保户"明确困难,制定各自的解决方案,是一种精准服务的体现。
B:企业生产不同规格的产品就是精准营销
C:精准营销服务的关键之一是如何区分客户,如何定位客户
D:精准营销的极致就是千人千面式的服务,但实现成本会很高
解析:精准营销一定要涉及到客户需求,不同规格的产品没有涉及到具体客户,不能算精准营销
420.聚类算法得到的客户分群结果可以通过一系列的原则进行评估,判断最终结果的优劣,这些原则不包括( D )。
A:群间特征差异性明显
B:群内特征是否相似
C:分群的个数及各群人数是否分布相对合理
D:分群数目较少,便于进行策略制定和实施
解析:分群数目应根据实际业务情况判断得出,而不是越少越有利
421.在搭建数据仓库、进行日常数据分析的过程中,用户通常会注重数据质量,如下关于数据质量的描述,哪项是错误的?( D )
A:数据质量是数据分析结论有效性和准确性的基础,也是很重要的前提和保障
B:为了获得可靠的数据,企业必须密切关注数据质量
C:数据质量是直接影响系统应用成功的关键因素之一
D:大部分情况下数据质量问题可以忽略,不会直接影响系统效用
解析:数据质量是数据分析的前提;数据加密为了数据安全;数据质量的重要性,直接影响系统能否成功;数据质量问题不能忽略
422.在某个客户管理系统中,客户年龄(具体年龄取值)在客户信息表和客户分群信息表(记录了年龄层次)中信息有差异,此种数据主要体现了哪种类型的数质量问题?( D )
A:缺失值
B:重复值
C:数据完整性
D:数据不一致
解析:信息有差异,代表数据一致性不足
423.分析师小王为公司预测某种产品销量,目标是将下个周期的预测误差控制在10%以内,并洞察价格和促销方法对该产品销量的影响。小王使用了公司中一直在使用的预测模型后,发现预测非常不准,原来是因为该产品的促销周期跟其他大多数产品不一样。正确的销售预测流程是确定目标>整理数据>选择方法>建立模型>编写报告。对于小王的疏忽,最准确的描述是( C )
A:小王没有问清楚该项目的目标
B:小王没有分析和整理好原始数据
C:小王选择了错误的预测方法
D:小王的建模调参水平不行
解析:目标是将下个周期的预测误差控制在10%以内,并洞察价格和促销方法对该产品销量的影响。目标明确;小王使用了公司中一直在使用的预测模型后,发现预测非常不准,原来是因为该产品的促销周期跟其他大多数产品不一样,以上说明公司产品特殊不应该使用和其他产品一样的预测模型
424.在进行数据分析之前,需要对数据进行处理,下列哪项不是数据预处理操作?( D )
A:数据清洗,去噪声和无关数据
B:数据集成 ,将多个数据源中的数据结合起来存放在一个一致的数据存储中
C:数据变换,把原始数据转换成为适合数据挖掘的形式
D:选择合适的算法模型进行数据建模
解析:数据预处理:数据清洗、数据集成、数据变换、数据规约
425.DataWorks的任务运维工作在运维中心模块进行,模块的主要功能不包含下列哪个选项内容?( D )
A:运维概览
B:任务列表
C:智能监控/智能诊断
D:任务调度
解析:运维中心的主要功能包含运维概览、任务列表、智能监控/智能诊断、任务运维
426.小明想要使用DataV为公司设计一个实时监控型可视化大屏,以下哪个( D )数据源可以配合DataV实现大屏制作。
A:Hbase
B:Hive
C:MaxCompute
D:RDS for MySql
解析:
DataV产品支持的数据源包括:AnalyticDB for MySQL、RDS for MySQL、兼容MySQL数据库、RDS for PostgreSQL、RDS for SQLServer、CSV文件、DataV数据代理服务、API、静态JSON、OpenAPI、对象存储OSS、简单日志服务SLS、Table Store、Oracle、阿里云API网关、业务实时监控、交互式分析 Hologres、Elastic Search、区块链服务、宜搭数据源、PolarDB for MySQL、PolarDB for PostgreSQL、PolarDB for Oracle、OceanBase for MySQL和数据集等。
427.遇到样本不均衡时,如何处理。比如正样本包含95700条数据,负样本包含5000条数据,合适的处理方法是( ABC )?
A:从正样本中抽样5000条数据
B:将负样本重复20次,并打乱顺序
C:提升负样本的权重
D:为了让模型自主学习数据规律,将全部数据用于训练
解析:常用的处理样本不均衡的操作包括:上采样、下采样和提升权重
428.关于PAI-DSW读写数据大文件(大于300M)下载描述正确的是( AD )。
A:如果数据在DSW提供的默认空间里,先将数据拷贝到挂载的NAS中再下载
B:使用DSW前端下载工具下载
C:可以直接下载
D:通过服务器FTP方式下载,只支持用户自己挂载的NAS下载
解析:如果文件不超过300M,建议直接使用DSW前端下载工具下载,直接在DSW中右键文件,点击download
如果文件大于300M,建议通过服务器FTP方式下载,目前这种下载方式只支持用户自己挂载的NAS下载,如果数据在DSW提供的默认5GB存储空间中,可先将数据拷贝到自己挂载的NAS中再下载。
429.Sqoop是用于在Hadoop与传统的数据库之间进行数据的传输的工具,其特点有( ABC )
A:高性能
B:自动类型转换
C:自动传播元信息
D:弹性伸缩
解析:Sqoop的特点: 性能高、自动类型转换、自动转换元信息
430.HBase是一个能完成海量数据的存储的工具,支持线上业务的实时查询,基于列族的数据库,以下选项中,关于HBase描述正确的?( AD )
A:是一种NoSQL数据库
B:不是开源的
C:是面向对象的
D:高可用的
解析:
HBase 是一种面向列的开源 NoSQL 数据库。 HBase是一个高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,基于列的存储模式适合于存储非结构化数据。
431.随着数据爆炸式增长,传统数据体系结构已经难以有效的处理大量数据集的数据。主要是因为大数据( ABC )
A:体量大
B:来源多样
C:生成极快
D:变化周期慢
E:多变
解析:大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
432.以下哪些是关系型数据库?( B )
A:MongoDB
B:DB2
C:Redis
D:NoSQL
解析:DB2是美国IBM公司开发的一套关系型数据库管理系统。
433.数据仓库可以存储多个数据源的数据,对数据加工后产生的信息,最终用于企业的决策,以下选项中可以说明数据仓库作用的是?( ABC )
A:数据分析
B:数据挖掘
C:数据存储
D:数据应用
解析:数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
434.在数据可视化的图表选择中,下列选项中属于时间序列型图表的是?( B )
A:曲线图
B:量化波形图
C:矩形树状图
D:圆填充图
解析:量化波形图属于时间序列型图表
435.下列选项中,关于数据可视化图表类型,不属于地理空间型的是?( D )
A:简化示意图
B:分级统计地图
C:点描法地图
D:坡度图
解析:地理空间型图表: 分级统计地图、点描法地图、 带柱形地图、简单示意图
436.Apache Spark是专为大规模数据处理而设计的,下列选项中,哪些项不属于Spark的特点?( D )
A:批处理/流式数据
B:SQL分析
C:大规模数据存储
D:大规模科学计算
E:机器学习
解析:大规模科学计算不属于
437.Fume是基于流式的架构,它是一个高可用的,高可靠的数据采集工具,以下对其描述正确的是( BC )
A:Flume采集主要针对业务系统产生的日志数据进行收集
B:Flume支持日志数据采集功能
C:Flume是分布式的海量日志采集、聚合和传输的系统
D:Flume支持数据库数据采集功能
解析:Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。
438.阿里云Quick Audience 智能用户增长属于阿里云大数据产品体系中的哪一类产品?( A )
A:大数据分析与可视化
B:大数据计算与分析
C:数据开发和治理
D:大数据工具与服务
解析:属于大数据分析与可视化。
Quick Audience为您打造一站式的消费者资产管理和运营平台,通过快速的数据对接、方便的模型配置、灵活的圈选完成用户的洞察和分群,通过多渠道的链接、自动化营销链路的编排,完成用户的触达和营销策略的沉淀,提升企业消费者运营的效率,让营销更简单,更高效,更专业。
https://help.aliyun.com/document_detail/136924.html?spm=a2c4g.137900.0.0.332c722fu7qdLL
439.在DataWorks中,需要为每个项目指定一个计算引擎,即该项目中的数据存储和处理将使用该指定的计算引擎。关于计算引擎的说法中最准确的是( D )。
A:支持Hadoop MapReduce作为计算引擎
B:只能使用已创建项目的MaxCompute作为计算引擎
C:只能使用包年包月形式的MaxCompute作为计算引擎
D:支持MaxCompute、E-MapReduce、机器学习PAI等多种引擎
解析:不支持开源的MapReduce,支持E-MapReduce计算引擎 可以使用E-MR引擎 可以使用包年包月、按量付费等 dataworks为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。
440.DataWorks项目空间的管理员角色拥有项目空间的各种管理权限,以下操作中( D )必须由拥有项目管理员角色的成员来完成。
A:创建DataWorks项目空间
B:把组织成员添加为项目成员并分配合理的角色
C:添加调度资源组
D:添加数据源
解析:项目管理员完成添加数据源,创建DataWorks项目空间,把组织成员添加为项目成员并分配合理的角色,添加调度资源组,由组织管理员完成
441.DataWorks中,如果当前工作流/节点任务存在上游任务,则调度执行时,必须满足( BC )等条件才可以调度执行
A:上游任务已经执行
B:上游任务已经执行并返回成功
C:自身定制时间已到或已过
D:自身定制时间未到
解析:工作流执行的条件:1、上游节点返回成功 且 2、定时时间已到或已超过定时时间(考虑上游任务晚于下游任务定时时间或资源紧张)
442.大数据((Big Data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。以下哪些属于大数据的处理思路?( AB )
A:复杂问题简单化
B:一个大向题拆分成多个小问题
C:复杂问题作为一个整体进行分析
D:小问题直接忽略不计
解析:大数据的处理思路:减治:将问题化简成一个更简单的能处理的问题 分治:将问题拆分成多个可以简单求解的小问题
443.通过Quick BI连接外部数据源,进行数据分析和报表搭建时,主要分为以下哪几个( ACEF )步骤。
A:连接数据源
B:数据加工
C:数据建模
D:配置监控告警
E:数据可视化分析
F:发布共享
解析:https://help.aliyun.com/document_detail/161417.html?spm=a2c4g.33813.0.i5
步骤一:连接数据源
步骤二:数据建模
步骤三:数据可视化分析
步骤四:发布共享
444.以下关于阿里云Flink版框架的描述,描述正确的是?( D )
A:Flink版运行在阿里云容器服务和ECS等SaaS系统上
B:Flink版与Apache Flink功能相同,但相互不兼容
C:Flink是一个流批一体的计算框架
D:将各种不同的实时数据源中的数据进行实时订阅、处理与分析。
解析:Flink主要的应用场景就是将各种不同的实时数据源中的数据进行实时的订阅、处理、分析,并把得到的结果写入到其他的在线存储之中,让您直接生产使用。
445.在传统的大数据批处理系统中,关于Mapreduce缺点,下列说法正确的是( ABCD )?
A:中间结果多
B:不擅长实时计算
C:延迟高
D:磁盘IO开销大
解析:MapReduce的缺点:
1、无法在毫秒或秒级内返回结果;
2、输入数据集是动态的,不能动态变化;
3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下;
4、Mapreduce因分布式计算 并行能力强。
446.下列( B )属于某开源分布式文件系统,且适合以文件为载体提供在线服务?
A:OSS
B:FastDFS
C:HDFS
D:S3
解析:FastDFS是一个开源的分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。 特别适合以文件为载体的在线服务, 如相册网站,视频网站等等。
447.在Spark SQL架构中,( A )组件负责执行计划生成和优化?
A:Catalyst
B:Execution
C:SQL Parser
D:Physical Plan
解析:Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责。
448.MapReduce的优点有哪些?( AB )
A:实现简单接口,即可完成分布式程序
B:使用在分布式计算框架,所以当一台机器失败后,可以自动切换至其他节点运行该任务
C:只适合少量的数据处理
D:可以通过配置Map任务数来扩展计算能力
解析:
MapReduce的优点:
1、易于编程。用户只关心业务逻辑,实现框架的接口。
2、良好的扩展性。可以动态增加服务器,解决计算资源资源不足问题。
3、高容错性。任何一台机器挂掉,可以将任务转移到其他节点。
4、适合海量数据计算(TB/PB),几千台服务器共同计算。
449.MaxCompute集成AI能力体现在( ABC )?
A:与PAI的无缝集成
B:与Spark-Mllib结合
C:使用Python的第三方机器学习库
D:与Mahout框架的集成
解析:链接:https://help.aliyun.com/document_detail/27800.html?spm=a2c4g.466617.0.i3
集成AI能力: 与机器学习平台PAI无缝集成,提供强大的机器学习处理能力。 您可以使用熟悉的Spark-ML开展智能分析。 使用Python机器学习三方库。
450.数据分析有两大要素,一为理论,二为技术,理论与技术的结合,才真正的构成了数据分析。那么关于数据分析的理论与技术,下面说法正确的是?( BD )
A:数据分析理论包含统计学、机器学习、数据挖掘算法、数据存储
B:数据分析技术包含单机分析工具、单机编程语言(如Python等)、大数据处理技术(如MapReduce、Spark、Hive等)
C:大数据时代前以少量数据分析为主,编写单机程序,计算分析结果
D:大数据时代后借助分布式计算框架,处理海量数据,完成数据分析
解析:数据分析技术包含单机分析工具、单机编程语言(如Python等)、大数据处理技术(如MapReduce、Spark、Hive等)
451.某超市通过分析顾客的购买记录后发现,购买纸尿裤的人由较大的概率也会购买啤酒,这个案例数据大数据分析的哪种类型的问题? ( D )
A:聚类
B:时序分析
C:分类
D:关联分析
解析:典型的数据挖掘中的关联分析案例
452.关于DataWorks运维中心智能监控的基线报警,以下说法错误的是?( D )
A:每个基线都必须提供预警余量
B:当智能监控预测基线的完成时间超过预警余量时,会直接通知设置的报警对象3次
C:当智能监控预测基线的完成时间超过预警余量时,报警每次间隔30分钟。
D:每个基线都必须提供延时时间
解析:基线报警是针对已经开启基线开关的基线的一个附加功能,每个基线都必须提供预警余量和承诺时间; 当智能监控预测基线的完成时间超过预警余量时,会直接通知设置的报警对象3次,每次间隔30分钟。 不涉及延时时间设置
453.机器学习PAI(Platform of Artificial Itelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案。以下哪个不属于机器学习平台PAI的基础设施?( C )
A:CPU集群
B:GPU集群
C:自建集群
D:FPGA集群
解析:PAI的基础硬件包括CPU/GPU/NPU/FPGA
454.大数据存储一般采用的是分布式存储技术,以下关于分布式存储说法正确的是?( C )
A:Hadoop的分布式存储技术是GFS
B:分布式存储要求底层有多台高性能存储服务器
C:分布式存储实现数据冗余,提高了数据的安全性
D:分布式存储方式无法存储传统的结构化数据
解析:Hadoop的分布式存储技术是HDFS;分布式存储不要求底层服务器高性能,多台服务器同时提供服务;冗余存储,副本技术,保障数据安全;分布式存储Hive即为结构化存储
455.DataWorks基于( ABCDF )等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。
A:MaxCompute、
B:Hologres
C:AnalyticDB
D:EMR
E:Hadoop
F:CDP
解析:DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与数万名政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。
456.在信息爆炸的时代,越来越多的数据堆积,这些密集数据没有重点关注并可读性较差,因此,我们需要数据可视化,以帮助数据易于理解和接受,那么下列关于数据可视化常用图表应用场景描述正确的有( ABDEF)。
A:条形图主要应用于数据比较(类别名称可以更长,因为Y轴上有更多空间)
B:柱状图主要应用于分类数据比较
C:饼状图主要应用于多个数据系列比较
D:散点图主要应用于关联分析,数据分发
E:折线图主要应用于数据量随时间变化的趋势,系列趋势的比较
F:面积图主要应用于序列比,时间趋势比
解析:饼状图广泛用于各个领域,以表示不同类别的比例,并通过弧线比较各种类别。 饼形图不适用于多个数据系列,因为随着数据系列的增加,每个切片将变得更小,最后大小区别也不明显。饼图也可以制成多层饼图,显示不同类别数据的比例,同时也反映层次关系。主要应用场景序列比率,序列大小比较(玫瑰图)
457.文件系统是计算机中管理文件的程序,以下哪些选项是文件系统的功能?( ABD )
A:新建文件
B:存储文件
C:存储结构化的数据
D:提供文件的检索
解析:文件保护与检索、实现文件按名存取、管理存储介质、划分分区。
458.Hive是构建在Hadoop上的数据仓库框架,关于Hive的描述正确的是?( C )
A:Hive的本质是将MapReduce转化成HQL程序,然后进一步提交给Hadoop框架执行
B:不依赖分布式并行计算模型MapReduce处理数据
C:定义了简单的类SQL查询语言HiveQL,用户可以通过编写的HiveQL语句运行MapReduce任务
D:不依赖分布式文件系统HDFS存储数据
解析:Hive的本质是将HQL转换成MapReduce程序,然后提交给Hadoop框架执行; Hive 依赖分布式并行计算模型MapReduce 处理数据; Hive定义了简单的类似SQL 的查询语言HiveQL。 用户可以通过编写的HiveQL语句运行MapReduce任务; Hive 依赖分布式文件系统HDFS存储数据;
459.在天气预报中的降雨量地图中,根据颜色不同来反映不同区域的降水量。这是数据可视化在( C )学科上的应用?
A:科学可视化
B:信息可视化
C:可视化分析学
D:空间可视化
解析:“根据颜色不同来反映不同区域的降水量”可视化分析学
460.数据挖掘中常见的分类算法有哪几种?( ABC )
A:决策树
B:朴素贝叶斯
C:支持向量机
D:循环神经网络
解析:数据挖掘中常见的分类算法有决策树算法、贝叶斯分类算法、支持向量机。
461.下列关于分布式文件系统相关产品的用法,描述正确的是( CD )。
A:MogileFS适用于大型的、分布式的、对大数据进行访问和应用
B:GFS适用于海量小图谱的存储
C:HDFS具有高容错性和可扩展性,可以部署在廉价的机器上
D:Ceph具备高性能、高可用性、高可扩展性、实时存储性等特点;
解析:MogileFS:是一套高效的文件自动备份组件
GlusterFS:主要应用在集群系统中,具有很好的可扩展性。软件的结构设计良好,易于扩展和配置,通过各个模块的灵活搭配以得到针对性的解决方案。
GoogleFS:性能十分好,可扩展性强,可靠性强。用于大型的、分布式的、对大数据进行访问的应用。运用在廉价的硬件上。
FastDFS:一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。
TFS:TFS(Taobao FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。
Ceph是一种为优秀的性能、可靠性和可扩展性而设计的统一的、分布式文件系统。
462.Oozie是Hadoop生态圈的组件之一,关于Oozie,描述正确的是?( ACD )
A:Oozie是一个用来管理Hadoop生态job的工作流调度系统
B:Oozie由Apache公司贡献给cloudera
C:Oozie是运行于Javaservlet容器上的一个JavaWeb应用
D:Oozie的目的是按照DAG(有向无环图)调度一系列的MapReduce或者Hive等任务。
解析:Oozie由 Cloudera公司开源给 Apache,是一个基于工作流引擎的开源框架。
Oozie是一个用来管理Hadoop相关作业(MapReduce)的工作流调度系统
Oozie 运行在 Java servlet 容器中,用于定时调度任务和按照执行的逻辑顺序调度多个任务。
463.下列选项中,属于Spark SQL 架构的组件是( ABDE )。
A:SQL Parser
B:Physical Plan
C:Thrift Server
D:Catalyst
E:Execution
解析:SQL Parser、Physical Plan、Catalyst、Execution Spark ThriftServer是一个JDBC接口。
464.数据可视化可以帮助非专业的工程师通过图形化的界面轻松搭建专业水准的可视化应用,满足您会议展览、业务监控、风险预警、地理信息分析等多种业务的展示需求。BI商业智能软件的使用场景有( D )
A:政务系统
B:互联网运营分析
C:公安消防
D:货币金融
解析:货币金融
465.在数据分析的过程中,涉及到数据处理的概念。关于数据分析和数据处理,描述正确的是?( ACD )
A:数据处理是对数据的采集、存储、检索、加工、 变换和传输
B:在数据处理中,数据分析体现在大量数据计算中
C:数据分析通常与数据处理一起使用,两者之间密不可分,互相融合
D:数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用
解析:数据处理是对数据的采集、存储、检索、加工、 变换和传输 数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析;
466.Flume是基于流式的架构,用于海量日志采集的技术,关于它的三大核心组件Source、Channel、Sink,以下描述正确的是( AD )
A:source负责接收不同类型、不同格式的日志教据
B:channel保存source的写入的数据和Sink会到channel中取对应的数据发送目标地
C:source负责接收、读取和写入数据
D:sink负责从Channel中的获取数据,写入到接收方。
解析:source负责接收不同类型、不同格式的日志教据。sink负责从Channel中的获取数据,写入到接收方。channel完成数据缓存的功能。
467.在某个分析系统中,某个实体表保存了客户的月消费信息,发现有一个客户前三个月分别消费了320元、280元、330元,而本月消费2600元,此种数据主要体现了哪种类型的数质量问题? ( B )
A:数据完整性
B:异常值
C:缺失值
D:数据不一致
解析:差别过于大,体现了异常性
468.DataV数据可视化是使用可视化应用的方式来分析并展示庞杂数据的产品,以下哪个应用场景不是使用DataV可以实现的?( D )
A:开发天猫双11、阿里云城市大脑同款数据可视化应用
B:开发工业级的数据可视化项目
C:搭建专业级地理信息可视化应用
D:搭建企业级数据分析平台
解析:
DataV可以实现:1、开发天猫双11、阿里云城市大脑同款数据可视化应用。DataV提供了满足各类场景和人群需求的可视化应用工具,开箱即用,效果惊艳。;2、开发工业级的数据可视化项目。DataV新推出的专业版,面向软件开发商和开发者,提供更灵活的项目权限管理方案、自定义组件开发工具和强大的交互配置能力。;3、使用高性能的三维渲染引擎。DataV将游戏级三维渲染的能力引入地理场景,借助GPU计算能力实现海量数据渲染,提供低成本、可复用的三维数据可视化方案,适用于智慧城市、智慧交通、安全监控、商业智能等场景。;4、使用海量的炫酷图表组件。DataV支持绘制各类基础图表,接入ECharts、AntV-G2等第三方图表库,即便没有设计师,也可搭建出高水准的可视化应用。;5、搭建专业级地理信息可视化应用。DataV支持绘制地理轨迹、地理飞线、热力分布、地域区块、3D地球等效果,支持地理数据多层叠加。;6、使用行业模板创建可视化应用。DataV定制了数十种行业数据模板,用户简单修改即可使用,业务全景一目了然。企业级数据分析平台使用quickBI实现
469.在QuickBI中,可以使用不同的图表来显示不同的数据形式,以下哪个图表适合应用在显示数据值的趋势?( C )
A:雷达图
B:漏斗图
C:线图
D:矩阵树图
解析:雷达图可⽤来展⽰分析所得的数字或⽐率,使⽤者能⼀⽬了然的了解各数据指标的变动情形及其好坏趋向; 漏⽃图适⽤于分析具有规范性、周期⻓、和环节多的业务流程。 线图可以通过折线的⽅式显⽰数据的变化趋势,并且可以显⽰随时间而变化的连续数据,⾮常适合⽤来分析和显⽰在相等的时间间隔下数据的趋势走向。 矩阵树图⽤来描述考察对象之间数据指标的相对占⽐关系。
470.数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价值信息的过程,以下哪些属于数据分析的流程?( BCE )
A:数据备份
B:数据收集
C:数据处理
D:数据加密
E:数据展现
解析:数据备份是出于数据安全考虑,进行数据灾备,可以进行数据恢复; 数据加密同样是出于数据安全考虑,进行数据脱敏; 数据分析的步骤为:收集数据、处理数据、分析数据、展现数据
471.小明利用三天时间对MaxCompute做了详细了解后,想尝试开通MaxCompute,那么下面哪项( D )不能支撑小明的需求。
A:创建了阿里云账号
B:开通MaxCompute选择了按量计费模式
C:删除了项目名称为defaultproject系统随机码的默认项目
D:小明创建了RAM用户
解析:以RAM用户身份开通MaxCompute,需要获取RAM用户账号并已授予AliyunBSSOrderAccess和AliyunDataWorksFullAccess权限
472.DataWorks的DataStudio(数据开发)模块提供了界面化、智能高效的大数据数据开发与测试体验,那么DataStudio模式采用( ABD )结构,按照业务种类将相关的不同类型的节点任务组织在一起。
A:项目
B:解决方案
C:数据处理
D:业务流程
解析:数据开发模式采用项目-解决方案-业务流程三级结构,按照业务种类将相关的不同类型的节点任务组织在一起。
473.阿里云DataV的基本操作流程包含下列哪些( BCDEF )选项。
A:开通并本地部署DataV
B:准备工作
C:创建可视化应用
D:添加并配置可视化组件
E:调整组件图层位置
F:预览并发布可视化应用
解析:阿里云DataV暂时不支持本地部署
474.关于机器学习常见的算法分类描述正确的是( ABD )。
A:常见的机器学习算法可分为有监督学习和无监督学习及增强学习
B:分类属于有监督学习
C:回归属于无监督学习
D:聚类和关联规则均属于无监督学习
解析:回归属于有监督学习算法
475.大数据应用中用到了哪些云计算技术?( AB )
A:海量数据存储技术
B:海量数据管理技术
C:分布式计算
D:数据清洗和数据挖掘
解析:大数据用到的海量数据存储技术、海量数据管理技术、MapReduce等并行处理技术都是云计算的关键技术
476.大数据时代传统数据架构或典型数据库软件工具在处理海量数据时存在哪些方面的问题?( ABCE )
A:海量数据收集
B:海量数据存储
C:海量数据管理
D:海量数据的分析
E:数据的共享访问
解析:大数据技术主要问题有: 第一,成本高。传统存储设备通用性较差,随着业务需求的增长,未来的设备投资加上后期的维护、升级扩容的成本将会非常高。 第二,性能低。单节点的I/O性能瓶颈无法逾越,容量和性能都不容易进行扩展,难以支撑海量数据的高并发、低延时的场景。 第三,安全隐患多。数据传输过程中存在泄露、篡改、被数据流攻击等风险隐患。 基于此数据在采集、存储、管理、共享中都存在突出问题
477.某商品在推荐给特定用户之前,需要对用户的基本信息如:年龄、性别、所在地区、购买行为(购买过的商品类别、店铺)、浏览时长、购买收藏等进行全方位的收集、分析、得出结论。最终展示给用户的是“用户想看的商品“;。这体现了数据采集的哪一特点?( B )
A:多维性
B:全面性
C:高效性
D:灵活性
解析:根据题目“进行全方位的收集、分析、得出结论“;,全方位等关键信息,体现了数据的全面性
478.阿里云图计算服务GraphCompute的特点有哪些?( ABC )
A:高性能
B:高可用
C:百万级TPS
D:高成本
E:半托管
解析:链接:https://help.aliyun.com/document_detail/134189.html
图计算服务Graph Compute特点 高性能 查询延时低、数据导入快(千亿数据查询延时2ms以内,数据载入最高达500w doc/s ) 低成本 通过提供倒排查询和向量计算的扩展能力,同需求场景下,引擎资源开销是采用其他方案的50% 高可用 离线系统支持多版本备份,提供分钟级数据恢复功能,具有更强的容灾和数据回滚能力 百万级TPS Graph Compute采用异步更新架构,单节点支持百万级别TPS更新,保证数据的高实效性 全托管 提供图形化展示的控制台,提升数据开发效率。数据链路全托管,业务运维0投入
479.在数据预处理中,常用的规范化处理方法包括( ABD )
A:最大最小(Min-Max)规范化
B:z-score标准化
C:曲面规范化
D:小数定标标准化
解析:常用方法有min-max规范化、Z-score规范化、按小数定标规范化等
480.在原材料日购进&日消耗数据的可视化展示中,需要核对数据的完整性,对缺失的日数据进行补充和分组统计;最后将统计数据保存到数据仓库中。上述的这些操作属于数据可视化设计的哪一个步骤?( A )
A:数据准备
B:主题确认
C:图表选择
D:数据可视化
解析:核对数据的完整性,对缺失的日数据进行补充和分组统计,属于数据可视化
481.阿里云Elasticsearch是基于开源Elasticsearch构建的全托管Elasticsearch云服务。关于它的应用场景描述正确的是?( ACE )
A:应用于信息检索
B:应用于数据库检索
C:日志运维全观测
D:数据检索加速
E:分析等场景服务
解析:阿里云Elasticsearch具有广泛的应用场景,包括日志分析与运维全观测、信息检索、数据智能等。 日志分析与全观测、信息检索、数据智能 https://help.aliyun.com/document_detail/169917.html?spm=a2c4g.57770.0.0.56744d56PYWTSG
482.大数据技术处理的数据类型包括哪几项?(A,B,C)
A:结构化数据
B:半结构化数据
C:非结构化数据
D:时空数据
解析:结构化、非结构化、半结构化
483.阿里云日志服务SLS是云原生观测与分析平台,为Log、Mletric、Trace等数据提供大规模、低成本、实时的平台化服务。下列选项中,属于日志服务SLS的特点的有( BD )
A:高效分析能力
B:可视化展示
C:集成单一化
D:支持实时消费
解析:
链接:https://help.aliyun.com/document_detail/48869.html 日志服务一站式提供数据采集、加工、查询与分析、可视化、告警、消费与投递等功能,全面提升您在研发、运维、运营、安全等场景的数字化能力。
484.图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势?( B )
A:传播速度快
B:数据更直观
C:多维展示
D:容易记忆
解析:数据更直观:图比文本或表格更加直观呈现
485.MaxCompute的分区表指的是在创建表时指定某几个字段作为分区列,从而实现将表的数据分成多个分区。关于分区的说法中,正确的是( ACD )。
A:MaxCompute将分区列的每个不同取值作为一个分区
B:分区列对字段类型没有要求
C:用户可以指定多级分区
D:在使用数据时如果指定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描。
解析:
阿里云MaxCompute将分区列的每个值作为一个分区(目录),您可以指定多级分区,即将表的多个字段作为表的分区,分区之间类似多级目录的关系。使用数据时,如果指定需要访问的分区名称,则只会读取相应的分区。分区列对字段类型是有要求的,不支持全部字段。
486.( A )技术和大数据密切相关,通常把两者比作硬币的两面。
A:云计算
B:网格计算
C:内存计算
D:并行计算
解析:本质上讲,云计算强调的是计算能力;而大数据强调的是处理、计算的对象。二者并不是孤立存在的,而是相互关联的。”云计算中的重要组成部分既是基础设施还是存储设备;大数据提供给用户的服务需要对数据进行处理,主要落脚在对数据的加工上。因此,云计算与大数据两者密不可分。
487.在创建分析型数据库时,ECU型号选择有哪四种( ABCD )
A:c1类型
B:c8类型
C:s1n类型
D:s2n类型
E:z2类型
解析:ECU(弹性计算单元),是分析型数据库中存储和计算资源的分配单位,数据库公共云提供的ECU规格:c1 、c8、s1n、s2n
488.ABC电商公司非常关心用户从浏览到下单到支付的转化率,他们想分析不同性别的人在该流程中的转化率的差异,可以通过什么很好的实现该需求? ( C )
A:漏斗图
B:饼图
C:旋风漏斗
D:树图
解析:
旋风漏斗图可被看做是旋风图和漏斗图的结合体。旋风图可以用来比对两类事物在不同指标下的数据情况,比如,对比题目不同性别。漏斗图可以用来展示各步骤的转化率,适用于业务流程多的流程分析,比如通过漏斗图,可以清楚地展示用户从进入网站到实现购买的最终转化率
489.实现精准营销的动因不包括(A)。
A:提高产品良品率
B:提高企业竞争力
C:提高服务质量
D:提升企业效益
解析:良品率是质量问题,是营销的上一环节
490.DataWorks中对已编写完成任务,进行周期性调度配置,一个当日23:00前配置的按日为周期的调度任务,何时可通过调度正常调度运行?( C )
A:当时
B:当日
C:第二日
D:第三日
解析:在DataWorks中,当日23:00前配置的按日为周期的调度任务,可以在第二天的 0 点开始正常进行调度运行。因为该调度任务的周期为按日,每个周期的起点时间为零点,而且任务是在当日 23 点之前配置完成的,所以第一个周期的起点时间将是第二天的零点。也就是说,该调度任务将在第二天的零点开始正常进行调度运行
491.运维中心是日常运维的主要工具,可对已提交的工作流及其节点任务进行管理与维护,同时也可针对节点来添加监控报警,如下关于运维告警内容,描述正确的是?( B )
A:运维告警配置后无法修改
B:运维告警可配置短信告警
C:运维告警只可配置给程序责任人
D:运维告警只能对出错的调度进行告警
解析:预警规则可以根据需要修改;运维预警可以配置短信和钉钉;可以配置给项目空间的开发人员运维人员管理员等;可以设置时间报警策略、警示线策略,运行成功预警、未运行预警、失败预警等等。所以选择B。
492.分析师小王想要用时间序列分解法的乘法模型预测某商品的销量,当他在计算移动平约值M时,需要确定移动平均的步长L,至于聚合的粒度,他想都尝试一下,比如天、周、月等,对于不同的聚合粒度,以下哪个L的取值是错误的?( D )
A:如果需要对每天的销量进行预测,取L=365
B:如果需要对每周的销量进行预测,取L=52
C:如果需要对每季度的销量进行预测,取L=4
D:如果需要对每四周的销量进行预测,取L=12
解析:如果需要对每月的销量预测,取L=12,而每四周的销量预测应该取L值为13
493.交互式实时数据可视化应用来帮助业务人员发现并诊断业务问题,越来越成为大数据解决方案中不可或缺的一环。为了实现这些新的需求,可以使用以下哪个阿里云服务?( D )
A:大数据计算服务MaxCompute
B:数据工场DataWorks
C:云原生数据仓库(分析型数据库)AnalyticDB
D:DataV数据可视化
解析:1、大数据计算服务 提供计算引擎2、开发套件,有调度开发等功能3、分析型数据库,一般提供数据服务4、DataV数据可视化是实时大屏,实现实时可视化
494.阿里云大数据体系中,提供离线计算服务的是?( C )
A:Quick Bl数据可视化分析平台
B:云原生数据仓库(分析型数据库)AnalyticDB
C:大数据计算服务MaxCompute
D:数据工场DataWorks
解析:quickBI是数据分析可视化; AnalyticDB是分析性数据库,提供交互式查询功能等; Maxcompute是大数据计算服务,提供离线计算功能; Dataworks是开发套件
495.机器学习按照学习方式不同可以分为多种分类,以下哪些是机器学习的分类?( ABE )
A:监督学习
B:无监督学习
C:自动学习
D:迁移学习
E:半监督学习
解析:机器学习分类:有监督学习、无监督学习、和半监督学习; 自动学习:AutoML 可以看作是一个在给定数据和任务上学习和泛化能力非常强大的系统。 迁移学习:将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中
496.时间序列可以分解为长期趋势(Trend),季节变动(Seasonality),循环变动(Cycle)和不规则变动(Random),以下说法中正确的是( BD )。(正确2个)
A:长期趋势(Trend)是受价格因素作用而形成的,比如长期的打折一般会引起销量持续向上的长期趋势
B:季节变动(Seasonality)反映了现象在一年内随着季节的变化而发生的有规律的周期性变动
C:循环变动(Cycle)是受各种因素影响而形成的上下起伏不定的波动,有固定的周期
D:不规则变动(Random)是受各种偶然因素影响而形成的
解析:“长期趋势(Trend)是受价格因素作用而形成的,比如长期的打折一般会引起销量持续向上的长期趋势”中是受某种根本性因素作用,而不是价格因素 “循环变动(Cycle)是受各种因素影响而形成的上下起伏不定的波动,有固定的周期”中循环变动是没有固定的周期
497.MaxCompute中的表t_dml中仅包含一个字段ID,类型为string,以下SQL中肯定会报错的是( A )
A:Insert into table t_dml values('2')
B:insert overwrite table t_dml select 3.14 from dual;
C:create table t_dml_bak like t_dml
D:create table t_dml_bak as select*from t_dml
解析:maxcompte不支持insert values的语法
498.下列关于MaxComputeSQL说法正确的有(ABCD )
A:不支持事务(不支持Commit和Rollback)
B:不支持索引和主键约束。
C:不支持自增字段。
D:单表最多支持6万个分区。超过6万个分区会报错
E:不支持窗口函数
解析:MaxCompute SQL与标准SQL的基本区别:不支持事务(不支持Commit和Rollback,不推荐使用INSERT INTO)。不支持索引和主键约束。 部分字段不支持默认值或默认函数。 不支持自增字段。 单表最多支持6万个分区。超过6万个分区会报错。 一次查询输入的分区不能超过1万个,否则会报错。如果是2级分区且查询时只根据2级分区进行过滤,总的分区数大于1万也可能导致报错。 等等。
499.关于删除MaxCompute表或分区中的数据,以下语法正确的是( AC )?
A:insert overwrite table TableA select a,b,c.... from TableA where 1= 2;
B:delete from testtable where 1=1;
C:alter table testtable drop if exists partition (ds='20170520');
D:insert overwrite table TableA select a,b,c.... from TableA where 1= 1;
解析:对于非分区表:truncate table testtable;insert overwrite table TableA select a,b,c.... from TableA where 1= 2;对于分区表:insert overwrite table TableA partition (ds=20221231) select a,b,c.... from TableA where 1= 2;alter table testtable drop if exists partition (ds='20170520');
500.关于Maxcompute 的set操作使用正确的是( D )。
A:set ==<256>设置每个Map Worker的内存大小为256M
B:set :<256>设置每个Reduce Worker的内存大小256M
C:set 设置每个Map Worker的内存大小为256M
D:set odps.stage.mapper.split.size=256;调整每个Mapper读取数据的大小为256 MB。
解析:Maxcopmte的set命令格式为 set = 示例:--调整每个Mapper读取数据的大小为256 MB。 set odps.stage.mapper.split.size=256;
501.数据预处理中的缺失值处理是指由于调查、编码和录入的误差,导致数据中可能存在缺失值,需要给予适当的处理。常用的缺失值处理方法有( ABD )
A:样本的均值、中位数如或众数代替缺失值
B:关联分析或逻辑推论进行估计
C:转换类型
D:变量的缺失值很多且无价值,可删除。
解析:A: 样本的均值、中位数或众数代替缺失值。这种方法适用于缺失值较少的情况,通过使用样本的统计指标来填充缺失值,可以保持样本整体分布的一致性。
B: 关联分析或逻辑推论进行估计。当数据之间存在相关性或者可以通过逻辑推断推算出缺失值时,可以利用其他变量之间的关系来估计缺失值。
D: 变量的缺失值很多且无价值,可删除。如果某个变量的缺失值占比较高且对后续分析没有太大的价值,可以考虑直接删除这个变量。
需要根据具体的数据和场景选择合适的缺失值处理方法。不同的方法适用于不同的情况,目的是提高数据的完整性和准确性,以保证后续的分析结果的可靠性。
502.物联网的特点有哪些?( BCD )
A:智能控制
B:整体感知
C:可靠传输
D:智能处理
解析:物联网数据特征是整体感知、可靠传输和智能处理。
503.机器学习PAl(Platform of Artificial Intelligence)是阿里云人工智能平台,提供一站式的机器学习解决方案。PAI平台在大数据处理与分析中的作用主要体现在( ABC )
A:模型部署
B:模型开发
C:模型训练
D:模型创建
解析:PAI分别提供了模型准备、模型开发和训练及模型部署阶段的产品
504.HBase中的单表可以有数十亿行、百万列,如此大容量数据在定位数据时没有使用到以下哪个概念?( B )
A:RowKey
B:Table
C:Column Qualifier
D:Column Family
解析:Hbase相关概念 Table 表 与mysql的表是一样的含义。 Row 行 一行里面包括一个Row key和许多Column。 RowKey 唯一键 HBase存储的时候会按照rowkey的顺序进行排列。所以rowkey的设计对于怎么存储是非常重要的。实际在设计rowkey的时候,会根据查询的需求会进行适当的组合+顺序反转。举一个HBase文档中的案例,有3个rowkey分别为org.apache.www, org.apache.mail, org.apache.jira,这样设计的好处就是所有org.apache开头的数据都会在一块,在进行查询的时候,就可以一次性取出来。 Column 列 一个列是由一个column family和column qualifier共同组成,由冒号作为分割。 一个column = column family:column qualifier Column Family 列族 一个Column Family会包含多个Column Qualifier。一旦列族确定,就不能进行修改。 Column Qualifier 列限定符 相当于是一个列族下的索引。列限定符可在任意时刻进行增加。 Cell 单元格 由行、列族和列限定符的组合,并且包含值和时间戳,它表示值的版本 Timestamp 时间戳 可以用来做一个value的版本标识 定位数据采用的是列族+列限定+版本获取
505.在大数据大规模应用阶段,大数据的特征已经发展到了8V。下列选项中属于8V新特性的是( ACDE )。
A:Veracity准确性
B:Virtual虚拟性
C:Visualization可视性
D:Validity合法性
E:Vitality动态性
解析:大数据新特征:Veracity准确性、Vitality动态性、Visualization可视性、Validity合法性。
506.随着大数据时代的发展,Hadoop生态圈组件越来越丰富,关于Hadoop生态圈组件Pig,描述正确的是( A )。
A:大型数据集计算与分析平台
B:数据仓库
C:分布式计算框架
D:列式数据库
解析:大规模数据分析平台
507.以下内容是应用程序运行过程中产生的日志信息,它属于( A )类型的数据? 1997-07-01, 10 1998-04-01, 26 1997-05-01, -5 1989-06-01, 25 1925-05-01, 45
A:结构化
B:半结构化
C:非结构化
D:网状结构
解析:结构化
508.Mapreduce是一个分布式运算程序的编程框架,下列选项中,属于MapReduce的缺点是 ( B )
A:并行计算能力有限
B:磁盘IO开销大
C:延迟低
D:中间结果在内存中
解析:MapReduce框架的设计初衷是通过分布式计算和并行处理来加速大规模数据集的处理。然而,由于其特性和设计原则,MapReduce也存在一些缺点。
磁盘IO开销大是MapReduce的一项明显的缺点。在MapReduce中,数据被划分成多个块,这些块通常存储在分布式文件系统中,如Hadoop的HDFS。在Map阶段和Reduce阶段之间,需要将数据从磁盘读入内存,进行处理,并将结果写回磁盘。这种频繁的磁盘IO会增加系统的开销和延迟,影响整体性能。
509.在MaxCompute中,可以通过Tunnel命令行来完成数据的上传下载。如果要下载test _project项目空间下的一个带分区的表test_table p的内容到log.txt文件中,使用命令tunnel download test project.test table p log.txt;结果报错,其中出错的部分为( C )。
A:tunnel
B:download
C:test_project.test _table_P
D:log.txt
解析:在MaxCompute中,上传文件到表带分区的话需要在表后面以斜杠区分需要的分区,题干中的表名test_project.test _table_P不带分区故无法实现
510.在大数据开发套件DatalDE中,( C )是指使用系统或计算资源的客户,即公司。
A:DatalDE项目
B:MaxCompute项目空间
C:组织
D:个人账号
解析:组织是阿里云特有概念,一个公司开通大数据平台服务就创建一个组织,一个组织内创建多个项目空间。组织之间相互隔离,一个账号只能所属一个组织,元数据按组织隔离,只能查看本组织下的表元数据
511.关于数据分析的步骤,以下( D )是在进行数据分析时首先要做的事情。
A:数据收集
B:数据处理
C:数据展现
D:明确目的
解析:数据分析流程首先确定目的,按照选项的顺序应该是明确目的、数据收集、数据处理、数据展现
512.以下图表中,适合展现层次关系的图表有哪些?( A C )(正确2个)
A:树图
B:来源去向
C:矩阵树图
D:气泡地图
E:仪表盘
解析:树图是一种利用包含关系表达层次化数据的可视化方法。 矩形树图适合展现具有层级关系的数据,能够直观体现同级之间的比较。
513.以下图表中,和业务流程相关的有哪些?( AB )(正确2个)
A:来源去向
B:漏斗图
C:条形图
D:散点图
E:树图
解析:来源去向图可以展示一组数据的来源、过程、去向和占比情况,进而体现业务各个环节的数据表现 漏斗图适用于业务流程比较规范、周期长、环节多的单流程单向分析,通过漏斗各环节业务数据的比较能够直观地发现和说明问题所在的环节,进而做出决策
514.DataWorks 数据同步支持的数据类型有( AB )。
A:结构化数据
B:实时业务数据
C:非结构化数据
D:半结构化数据
解析:DataWorks同步过程支持的数据: 仅支持结构化的数据; 支持单地域内及部分跨地域的相互同步、交换 完成数据同步,数据同步都是将业务系统中产生的业务数据定期导入到工作区,通过工作流任务的加工处理后,再将计算结果定期导入到指定的数据源中,供进一步展示或者使用。
515.Hive的SQL执行流程中,步骤Physical Plan Optimizer有什么作用?( B )
A:将逻辑查询计划转成物理计划
B:选择最佳的优化查询策略
C:将SQL转换成抽象语法树
D:将查询块转换成逻辑查询计划
解析:物理计划优化器:选择最佳的join策略(physical optimizer)
516.Spark最早是源于加州大学伯克利分校的Matei Zaharia等人发表的一篇论文。论文提出了一种( C )的概念。
A:分布式并行计算
B:分布式文件系统
C:分布式弹性数据集(RDD)
D:分布式微服务
解析:Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing, 该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即 RDD)的概念。
517.下面属于查询分析计算技术的是?( C )
A:Spark
B:Storm
C:Hive
D:Pregel
解析:查询分析计算技术:Hive、Impala
518.关于云计算在许多领域有诸多应用,如政务、教育、各种产业、医疗等有明显的表现,描述正确的是( AD )
A:政务云,部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型
B:医疗云,实现远程医疗,电子病历,专家会诊等
C:企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,加速提升企业信息化水平,对企业市场竞争力没有明显增加
D:教育云,整合教育资源,实现教育资源共享
解析:医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。
519.某数据集包含以下项(时间,区域,销售金额),想通过一张图表把上述信息全部展示出来,适合使用( A )。
A:气泡图
B:树图
C:饼图
D:雷达图
解析:根据题意,数据集有三个变量。气泡图是可用于展示三个变量之间的关系;树图适合展示层次结构,不是展示数量关系;饼图适合展示各部分占比情况,不适合展示形象之间的数量关系;雷达图适合展示3个以上数字类型的指标,主要展示综合分布情况,而题中“地区”不是数量指标
520.QuickBI中的是通过菜单形式组织的仪表板的集合,可以制作复杂的带导航菜单的专题类分析。( B )
A:仪表板
B:数据门户
C:IFrame
D:工作表
解析:数据门户也叫数据产品,可以通过菜单形式将仪表板组织成复杂的带导航菜单,常用于专题类分析。
521.有关Maxconpute的DDL-alter语法正确的有( BCD )?
A:alter table sale_detail drop columns (customer_name STRING, education BIGINT);
B:alter table sale_detail add if not exists partition (sale_date='201312', region='hangzhou');
C:alter table sale_detail drop if exists partition(sale_date='201312',region='hangzhou'),partition(sale_date='201312',region='shanghai');
D:alter table sale_detail add columns (customer_name STRING, education BIGINT);
解析:有关Maxcopmte使用方式DDL语法,可参考https://help.aliyun.com/document_detail/193814.html
522.阿里云大数据产品中属于大数据工具与服务类的有( BC )。
A:MaxCompute云原生大数据计算服务
B:DataHub数据总线
C:Data Integration数据集成
D:OpenSearch智能开放搜索
解析:OpenSearch智能开放搜索:智能搜索与推荐、MaxCompute云原生大数据计算服务:大数据计算与分析。
523.在创建智能应用程序时,Mahout包含许多算法实现,具体包含( ABDE )
A:聚类
B:分类
C:线性回归
D:推荐过滤
E:频繁子项挖掘
解析:Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁挖掘算法。
524.关于数据可视化设计步骤的数据准备阶段,对准备步骤描述错误的是?( A )
A:数据准备阶段要确认业务需求和主题风格
B:数据准备首先根据业务需求核对数据仓库中的数据,对于缺失的数据及时进行补充
C:数据准备需要对确定好的数据与业务指标进行核对、分析和重组
D:数据准备会将重组后的数据保存到单独的表单中,供后续可视化使用
解析:主题确认阶段要确认业务需求和主题风格
525.大数据集群中的硬件资源可能是数以万计的,如何管理协调、充分利用硬件资源成为一个很重要的问题,各种流行的大数据技术都有自己核心的资源管理和调度模块。以下选项中( A )不是负责类似功能的。
A:盘古
B:YARN
C:伏教
D:Mesos
解析:盘古是阿里云飞天分布式存储系统,不属于资源调度模块
526.大数据语境下,客户场景越来越多、越来越复杂,大部分场景下就计算本身(计算触发的方式、响应时间等)的特点来讲,可以归结为三种计算场景,包括( BCD )
A:网格计算
B:流计算
C:离线计算
D:在线计算
E:云计算中
F:内存计算
解析:数据计算的分类: ①离线批处理:Hadoop平台主要是面向离线批处理应用的,是一个能够对大量数据进行分布式处理的软件框架,而且是一种可靠的、高效的、可伸缩的方式进行处理,通过数据分块及自恢复机制能支持PB级的分布式数据存储。②实时交互计算(流计算):一般有两类应用场景:数据量巨大且不能提前计算出结果的,但要求对用户的响应时间是实时的;数据源是实时的和不间断的(流式数据),要求对用户的响应时间也是实时的。 ③在线计算:计算过程分为三个阶段,数据的产生与收集阶段(实时采集)——>传输与分析处理阶段(实时计算)——>存储和对外提供服务阶段(实时查询),整个过程统一在云端计算完成。
527.某数据集(父身高,子身高),描述了父子的身高信息,想通过一张图表来看一下,两者间是否存在相关关系,适合选择哪种方式实现?( A )
A:点图
B:线图
C:树图
D:柱图
解析:散点图可以推断出变量间的相关性。如果变量之间不存在相互关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据点就会相对密集并以某种趋势呈现。
528.为了市场竞争,各行各业都加大精细化管理和营销的力度,下面些场景不属于精细化管理营销的活动( C )。
A:移动公司在开学季推出学生统一套餐10元/月, 但包含的免费流量与上月的使用量挂钩,实行阶梯递增,即上月使用多本月赠送多,上月使用少本月赠送少。
B:登录淘宝界面,界面马上为你推送出你曾经浏览过的类似的商品信息和优惠活动
C:中秋节到了,超市又开始了打折促销活动
D:银行为吸引存款,根据以往的存款记录,为一部分害户发送信息,提供特殊的优惠利率
解析:根据学生需求按需营销;精准营销,智能推荐;打折不针对某个人,不是精准营销;
根据客户实际情况提供优惠政策数据精准营销
529.某公司在2016年底时根据历史的销量、价格、广告等所有数据中存在的因素来预测未来五年销量的变化,并根据预测的销量制定公司的发展战略和每一年的KPI。销量预测有三个特点,连贯性、相关性和混沌性。根据上述内容,该公司预测和制定策略时没有充分考虑到销量预测的哪个特点? ( C )
A:连贯性
B:相关性
C:混沌性
D:以上都是
解析:过去的数据表示连贯性;销量,价格,广告表示相关性;混沌性表示环境的变化并没有体现;根据题目没有提及事业环境因素
530.某政府部门为了分析人均可支配收入的影响因素,构建了自变量为人均收入、人均消费等的线性回归模型。在回归模型结果评估中,发现人均收入对人均可支配收入的系数为负数。产生这种现象的原因可能是回归模型出现了( B )。
A:异方差性
B:多重共线性
C:非正态性
D:自相关性
解析:异方差性是相对于同方差而言的。所谓同方差,是为了保证回归参数估计量具有良好的统计性质,经典线性回归模型的一个重要假定:总体回归函数中的随机误差项满足同方差性,即它们都有相同的方差。多重共线性是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。在通常的情况下,观测试验数据遵从正态分布,可用观测值的平均值和标准差分别描述它的集中趋势和离散特性。但在有些情况下,观测值不遵从正态分布,而遵从其他类型的分布,比如偏态分布。自相关性是指随机误差项的各期望值之间存在着相关关系,称随机误差项之间存在自相关性(autocorrelation)或序列相关
531.QuickBl是阿里云提供的数据可视化服务,以下哪个不是QuickBl在大数据方案中可以承担的角色?( A )
A:离线数仓
B:数据展示
C:即席查询
D:报表分析
解析:quickbI是做数据展示报表分析的,支持即席查询,离线数仓是通过maxcompute实现的
532.下列关于MaxCompute的用户管理,说法正确的是?( C )
A:移除一个用户之前,如果该用户已被赋予某些角色,还是可以直接删除
B:当一个用户被移除后,与该用户有关的授权页会被删除
C:MaxCompute目前不支持在项目空间中彻底移除一个用户及其所有权限数据
D:移除用户的命令是:delete user
解析:需要先收回赋予的角色才能被删除;policy授权用户移除后会保留;删除用户是remove user
533.某商城周末促销,运用去年会员客户的商城消费记录,结合会员的注册信息,构建客户画像,客户画像过程中,采用K-Means对客户分群,K-Means算法的优点有( AB )。(正确2个)
A:原理简单,容易实现
B:聚类结果容易解释理解
C:采用的迭代算法可以保证在循环次数足够的情况下,每次都能达到全局最优
D:k值的指定对结果无影响,只要循环的次数足够多,每次聚类都会收敛到相同的k值
解析:每次都能全局最优表述绝对;k值对结果是有影响的
534.下列选项中,关于数据可视化图表类型,属于数据分布型的是?( ACDE )
A:点状条带图
B:散点直线图
C:条带编码图
D:带误差线柱形图
E:金字塔图
解析:数据分布图标包括: 统计直方图、核密度曲线图、 蜂巢图、点阵图、点状条带图、 条带编码图、带误差线的柱形图、 带误差线的散点图、带误差线的曲线图、 箱形图、瓶状图、小提琴图、 豆状图、复合图、二维统计直方图、 二维核密度估计图、二位核密度曲面图、 三维统计直方图、金字塔图、 扇形预测图、带置信区间图
535.阿里云大数据产品的主要类别有智能搜索、推荐产品、__?(ABCD)
A:计算与分析产品
B:开发与治理产品
C:工具与服务产品
D:弹性伸缩ECS产品
E:开发模型产品
解析:阿里云大数据产品可以更快速地解决海量数据计算问题,主要有Dataworks,maxcompute、quickbi、datav、Hologres等等;
其中Dataworks 开发与治理产品、工具与服务产品
maxcompute、Hologre计算与分析产品
quickbi、datav分析与可视化产品 弹性伸缩ECS产品 是基础服务,硬件设施 实时计算不属于产品的概念
536.在进行数据采集时需要注意,数据量足够并具有分析价值、数据面足够支撑分析需求,采集更高效、更有针对性。以上说的是数据采集的哪些要点( AC )
A:全面性
B:多维性
C:高效性
D:扩展性
解析:数据采集的三大要点: 全面性:数据量足够具有分析价值、数据面足够支撑分析需求。 多维性:数据更重要的是能满足分析需求。 高效性:包含技术执行的高效性、团队内部成员协同的高效性以及数据分析需求和目标实现的高效性。
537.云计算能作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,体现了云计算的特点是(C)
A:通用性
B:动态扩展
C:按需服务
D:虚拟化
解析:云计算能作为一种商品,可以在互联网上流通,就像水、电、煤气一样,可以方便地取用,体现了云计算的按需服务
538.在数据可视化的图表选择中,哪些属于数据关系型图表?( BD )
A:统计直方图
B:散点图
C:雷达图
D:曲线图
解析:数据关系型图表包括散点图和曲线图
539.Divisive聚类算法中,基于层次的概念说法正确的是?( B )
A:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
B:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类
D:一种基于网格的具有多分辨率的聚类方法
解析:层次聚类方法使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
540.下列哪种图表属于地理空间型图表?( AB )
A:点状地图
B:简化示意图
C:坡度图
D:三维柱形地图
解析:地理空间型图表主要展示数据中的精确位置和地理分布规律,包括等值区间地图、带气泡的地图、带散点的地图等。
541.数据可视化DataV是阿里云一款数据可视化应用搭建工具,旨让更多的人看到数据可视化的魅力。下面选项关于数据可视化DataV,描述正确的是?(ABC)
A:使用可视化应用的方式来分析并展示庞杂数据的产品
B:帮助非专业的工程师通过图形化界面搭建专业水准可视化应用
C:自动适配大屏显示
D:DataV提供海量数据实时在线分析服务,支持拖拽式操作、提供了丰富的可视化效果,可以帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作
解析:使用可视化应用的方式来分析并展示庞杂数据的产品。
帮助非专业的工程师通过图形化界面搭建专业水准可视化应用。
自动适配大屏显示。
542.MaxCompute表支持生命周期管理,即表中的数据从最后一次更新时间算起,在经过指定的时间后没有变动,则此表将被MaxCompute自动回收。以下说法中正确的是( A )。
A:对于某非分区表,一旦其lifecycle值指定的时间段内未更新, 则该表将被自动删除
B:建表时可以指定lifecycle,其单位为小时,其取值必须为正整数
C:可以给不同的表或者不同的分区指定不同的生命周期lifecycle值
D:对于某分区表,一旦其lifecycle值指定的时间段内未有任何分区数据发生过更新,则该表将被自动删除
解析:MaxCompute表生命周期管理对于某非分区表,一旦其lifecycle值指定的时间段内未更新, 则该表将被自动删除
543.DataWorks中,运维中心的“任务管理视图”以( B )的方式显示调度任务之间的依赖关系和运行约束。
A:平衡树
B:DAG图
C:双向列表
D:二叉树
解析:运维中心的“任务管理视图”以DAG图(有向无环图)的方式显示调度任务之间的依赖关系和运行约束。
544.数据工场DataWorks (原DatalDE) 中,可以通过配置报警规则来监控周期调度任务的运行,以便及时告警,如监控到任务失败就告警。目前数据工场DataWorks (原DatalDE) 支持的告警方式有( ABC )
A:邮件
B:短信
C:电话
D:旺旺
解析:根据官方文档 https://help.aliyun.com/document_detail/429592.html 支持的报警方式有邮件、短信、电话、钉钉群消息
545.在分析型数据库中,下面关于多值列描述正确的是( ABC )
A:可以存入String类型的多个值,分隔符默认为半角逗号,也可以建表时进行配置
B:可使用in,contains条件对该列的单个值进行查询
C:枚举查询后该列的每个值可像一个普通列一样进行各类操作,但是不允许在没有进行枚举查询时对该列直接select或在group by中使用该列
D:多值列在使用的时候没有任何约束
解析:多值列的GROUP BY一定要带WHERE条件,否则引擎底层需要遍历所有的value(默认只遍历1024个value)
546.DataWorks中,一个任务可以依赖于另外的任务。即在被依赖任务(前置任务)未完成前,此任务不能运行。对于任务依赖,说法正确的是( A )。
A:最少依赖一个
B:最多依赖一个任务
C:最多依赖六个任务
D:没有限制
解析:dataworks任务最少一个依赖,即无任何实际依赖时,需要使用空间父节点作为依赖,否则无法提交上线
547.大数据计算服务MaxCompute是一种完全托管的数据仓库解决方案,可提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,井保障数据安全。关于MaxCompute的如下描述中错误的是?( B )
A:MaxCompute提供针对TB/PB级别的数据处理能力
B:MaxCompute提供实时要求极高的分布式处理能力
C:MaxCompute可对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统
D:DataWorks提供统一友好的调度系统和可视化调度运维界面
解析:MaxCompute致力于批量处理结构化数据的存储和计算,应用于离线计算场景,对分布式处理能力的实时性并无较高的要求。
548.有时候出于分析的需要,分析师会对预测模型中的某个字段进行归一化,待需要预测时再将模型预测出的归一化的字段进行还原。以下哪个公式可以实现逆归一化( A )。(X为还原后的数据,Y为归一化的数据)
A:X=Y (Max-Min)+Min
B:X=Y (Max-Min)-Min
C:X=Y(Max-Min)+Max
D:X=Y(Max-Min)-Max
解析:如果max和min分别表示某区间的最大、小值,那么该式的意思就是:x与最小值之间的距离占区间长度的几分之几(即y),这是归一化的原理,此选项为公式变形,归一化公式为(X-MIN)/(MAX-MIN)=Y
549.MaxCompute作为大数据存储、计算的服务,被广泛应用到了企业场景中。以下适合使用MaxCompute的有( ABC )。
A:搜集、分析用户行为数据,为用户细分建模
B:构建企业级的数据仓库,对企业历史数据进行加工处理
C:保存、处理海量日志数据,并结合机器学习PAI对日志进行建模分析
D:处理企业历史数据,并生成分析结果,提供终端用户进行即席查询
E:作为业务办理系统的后台数据存储工具,响应高并发的用户请求
解析:MaxCompute作为大数据存储、计算的服务支持历史数据搜集汇聚以及建模分析; 支持结合机器学习实现分析; 适合企业级数仓搭建; Maxcompute不支持即席查询功能,也不是高并发响应的载体
550.Tom是MaxCompute中某个项目空间prj1的管理员。该项目空间有很多敏感数据,比如用户身份号码和薪资记录,还有很多自主知识产权的数据挖掘算法。Tom希望能将项目空间中的这些敏感数据和算法保护好,项目中用户只能在项目空间中访问,数据只能在项目空间内流动,他应该怎么操作?( D )
A:使用ACL授权将所有用户设置为只读
B:使用Policy授权将所有用户设置为只读
C:允许对象创建者访问对象
D:开启项目空间的数据保护机制
解析:根据题意只能在项目空间内部流转,那么就只能通过开通项目空间保护机制完成,ACL授权、Policy授权等同样可以查询到数据;