阿里云大数据ACA及ACP复习题(161~170)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
全局流量管理 GTM,标准版 1个月
简介: 本人备考阿里云大数据考试时自行收集准备的题库,纯手工整理的,能够覆盖到今年7月份,应该是目前最新的,发成文章希望大家能一起学习,不要花冤枉钱去买题库背了,也希望大家能够顺利通关ACA和ACP考试。

161.使用DataWorks数据集成同步数据流程包含下列( ABCD )选项?
A:配置数据源
B:创建同步任务
C:运行同步任务
D:查看结果
E:数据加工
F:数据运维

解析:DataWorks数据集成同步数据流程:配置数据源-创建同步任务-运行同步任务-查看结果

162.默认情况下HDFS中一个数据块会保存( C )份副本?
A:1份
B:2份
C:3份
D:4份

解析:HDFS中的文件是以数据块的形式划分与存储的,并以副本机制来保证数据存储的安全性,默认情况下HDFS中一个数据块会保存3份副本。

163.MaxCompute与机器学习平台PAI无缝集成,提供强大的机器学习处理能力;用户也可使用熟悉的Spark-ML开展智能分析。使用Python机器学习三方库。上述文字这体现了MaxCompute在大数据处理与分析中的( A )作用?
A:集成AI能力
B:支持流式采集和近实时分析
C:数据存储能力
D:弹性能力与扩展型

解析https://help.aliyun.com/document_detail/27800.html
集成AI能力与机器学习平台PAI无缝集成,提供强大的机器学习处理能力。
您可以使用熟悉的Spark-ML开展智能分析。
使用Python机器学习三方库。

164.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件HBase是( D )
A:工作流引擎
B:资源管理系统
C:分布式文件系统
D:列式数据库

解析:hbase是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库。

165.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下对数据进行清洗的手段正确的是( ACD )
A:缺失值填充
B:集成不同的数据库
C:重复值处理
D:异常值和数据类型转换

解析:数据清洗的内容包括: 缺失值处理、异常值处理、 数据类型转换、重复值处理

166.数据清洗有哪些作用?( BCD )
A:数据清洗不可以纠正脏数据
B:数据清洗可以检测表中的不准确或损坏的记录
C:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据
D:数据清洗时检测出不正确的数据可以替换,修改或删除

解析:数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。
广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。

167.Sqoop是一款开源的工具,主要用于在Hadoop与传统的关系型数据库之间进行的操作是?( D )
A:数据清洗
B:数据存储
C:处理日志数据
D:传输数据

解析:链接:https://help.aliyun.com/document_detail/135296.html
Sqoop是一款开源的工具,主要用于在Hadoop和结构化数据存储(例如关系数据库)之间高效传输批量数据。

168.聚类算法与分类算法有哪些区别?( D )
A:聚类有标签,分类无标签
B:聚类无标签,分类无标签
C:聚类有标签,分类有标签
D:聚类无标签,分类有标签

解析:聚类无标签是无监督学习,无标签,分类有标签是监督学习,需要标签

169.Hadoop可以自动保存数据的多个副本,并且可以自动将失败的任务重新分配。上述文本体现了Hadoop的( A )特点。
A:高容错
B:高效率
C:高扩展
D:高可靠

解析:“自动将失败的任务重新分配”体现了高容错的特点

170.HDFS读写数据工作流程中,用于存储Block数据的节点是( A )。
A:DataNode
B:HDFS Client
C:Distributed File System
D:NameNode

解析:1、Client:就是客户端。 文件切分。文件上传 HDFS 的时候,Client 将文件切分成 一个一个的Block,然后进行存储。 与 NameNode 交互,获取文件的位置信息。 与 DataNode 交互,读取或者写入数据。 Client 提供一些命令来管理 HDFS,比如启动或者关闭HDFS。 Client 可以通过一些命令来访问 HDFS。
2、NameNode:就是 master,它是一个主管、管理者。 管理 HDFS 的名称空间 管理数据块(Block)映射信息 配置副本策略 处理客户端读写请求。
3、DataNode:就是Slave。NameNode 下达命令,DataNode 执行实际的操作。 存储实际的数据块。 执行数据块的读/写操作。
4、Secondary NameNode:并非 NameNode 的热备。当NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 辅助 NameNode,分担其工作量。 定期合并 fsimage和fsedits,并推送给NameNode。 在紧急情况下,可辅助恢复 NameNode。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
15天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
17天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
204 12
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
326 17
|
2月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
86 7
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
2月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
4天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
50 7
|
4天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
15 2