【精品问答】大数据计算技术1000问_问答-阿里云开发者社区

为了方便大数据开发者快速找到相关技术问题和答案，开发者社区策划了大数据计算技术1000问内容，包含Flink、Spark等流式计算（实时计算）、离线计算、Hbase等实践中遇到的技术问题和面试问题等维度内容。

我们会以每天至少50条的速度，增加优秀的大数据问答内容。

为了方便开发者线上交流，社区组建了大数据钉钉群，有数千人在里边讨论技术问题，点击这里加入群组织吧。https://developer.aliyun.com/article/713951

友情提示：1000问的内容含量比较大，收藏该页面不迷失哦

hive表关联查询，如何解决数据倾斜的问题?

hive内部表和外部表的区别

Spark 相关试题 Spark Core面试篇01

随着Spark技术在企业中应用越来越广泛，Spark成为大数据开发必须掌握的技能。希望能给大家带来帮助。

Spark master使用zookeeper进行HA的，有哪些元数据保存在Zookeeper？

Spark master HA 主从切换过程不会影响集群已有的作业运行，为什么？

Spark on Mesos中，什么是的粗粒度分配，什么是细粒度分配，各自的优点和缺点是什么？

如何配置spark master的HA？

Apache Spark有哪些常见的稳定版本，Spark1.6.0的数字分别代表什么意思？

driver的功能是什么？

spark的有几种部署模式，每种模式特点？

Spark技术栈有哪些组件，每个组件都有什么功能，适合什么应用场景？

Spark中Work的主要工作是什么？

Spark为什么比mapreduce快？

简单说一下hadoop和spark的shuffle相同和差异？

Mapreduce和Spark的都是并行计算，那么他们有什么相同和区别

spark-submit的时候如何引入外部jar包

cache和pesist的区别

二、选择题

Spark 的四大组件下面哪个不是

下面哪个端口不是 spark 自带服务的端口

Spark 支持的分布式部署方式中哪个是错误的：

Stage 的 Task 的数量由什么决定：

下面哪个操作是窄依赖：

下面哪个操作肯定是宽依赖：

spark 的 master 和 worker 通过什么方式进行通信的：

默认的存储级别：

spark.deploy.recoveryMode 不支持那种:

下列哪个不是 RDD 的缓存方法?

Task 运行在下来哪里个选项中 Executor 上的工作单元:

hive 的元数据存储在 derby 和 MySQL 中有什么区别：

DataFrame 和 RDD 最大的区别：

Master 的 ElectedLeader 事件后做了哪些操作

【Spark面试2000题41-70】Spark core面试篇02

cache后面能不能接其他算子,它是不是action操作？

reduceByKey是不是action？

数据本地性是在哪个环节确定的？

RDD的弹性表现在哪几点？

常规的容错方式有哪几种类型？

RDD通过Linage（记录数据更新）的方式为何很高效？

RDD有哪些缺陷？

说一说Spark程序编写的一般步骤？

Spark有哪两种算子？

Spark提交你的jar包时所用的命令是什么？

Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子？

你所理解的Spark的shuffle过程？

你如何从Kafka中获取数据？

对于Spark中的数据倾斜问题你有什么好的方案？

RDD创建有哪几种方式？

Spark中数据的位置是被谁管理的？

collect功能是什么，其底层是怎么实现的？

Spaek程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？

为什么Spark Application在没有获得足够的资源，job就开始执行了，可能会导致什么问题发生?

列举你常用的action？

Spark为什么要持久化，一般什么场景下要进行persist操作？为什么要进行持久化？

为什么要进行序列化

介绍一下cogroup rdd实现原理，你在什么场景下用过这个rdd？

下面这段代码输出结果是什么？

一、面试30题(第71-100题)

Spark使用parquet文件存储格式能带来哪些好处？

Executor之间如何共享数据？

Spark累加器有哪些特点？

spark hashParitioner的弊端是什么？

如何在一个不确定的数据规模的范围内进行排序？

spark hashParitioner的弊端是什么？

RangePartitioner分区的原理?

介绍parition和block有什么关联关系？

Spark应用程序的执行过程是什么？

hbase预分区个数和spark过程中的reduce个数相同么

如何理解Standalone模式下，Spark资源分配是粗粒度的？

Spark如何自定义partitioner分区器？

spark中task有几种类型？

union操作是产生宽依赖还是窄依赖？

rangePartioner分区器特点？

什么是二次排序，你是如何用spark实现二次排序的？互联网公司常面

如何使用Spark解决TopN问题？

如何使用Spark解决分组排序问题？

窄依赖父RDD的partition和子RDD的parition是不是都是一对一的关系？

Hadoop中，Mapreduce操作的mapper和reducer阶段相当于spark中的哪几个算子？

什么是shuffle，以及为什么需要shuffle？

不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快？

Spark中的HashShufle的有哪些不足？

conslidate是如何优化Hash shuffle时在map端产生的小文件？

Sort-basesd shuffle产生多少个临时文件

Sort-based shuffle的缺陷?

Spark shell启动时会启动derby?

spark.default.parallelism这个参数有什么意义，实际生产中如何设置？

spark.storage.memoryFraction参数的含义,实际生产中如何调优？

spark.shuffle.memoryFraction参数的含义，以及优化经验？

介绍一下你对Unified Memory Management内存管理模型的理解？

MRV1有哪些不足？

描述Yarn执行一个任务的过程？

Yarn中的container是由谁负责销毁的，在Hadoop Mapreduce中container可以复用么？

提交任务时，如何指定Spark Application的运行模式？

不启动Spark集群Master和work服务，可不可以运行Spark程序？

Spark中的4040端口由什么功能?

spark on yarn Cluster 模式下，ApplicationMaster和driver是在同一个进程么？

如何使用命令查看application运行的日志信息

Spark on Yarn 模式有哪些优点？

谈谈你对container的理解？

运行在yarn中Application有几种类型的container？

Spark on Yarn架构是怎么样的？

Executor启动时，资源通过哪几个参数指定？

为什么会产生yarn，解决了什么问题，有什么优势?

你们提交的job任务大概有多少个？这些job执行完大概用多少时间？

你们业务数据量多大？有多少行数据？

如何杀死一个正在运行的job

列出你所知道的调度器，说明其工作原理

YarnClient模式下，执行Spark SQL报这个错：

spark.driver.extraJavaOptions这个参数是什么意思，你们生产环境配了多少？

导致Executor产生FULL gc 的原因，可能导致什么问题？

Combiner 和partition的作用

Hbase 相关问题
Storm 相关问题
大数据相关问题
面试系列重新继续发布，题目都是好题目，答案作为参考是可以的，作为学习素材，仅供大家参考。

简答说一下hadoop的map-reduce编程模型

hadoop的TextInputFormat作用是什么，如何自定义实现

hadoop和spark的都是并行计算，那么他们有什么相同和区别

为什么要用flume导入hdfs，hdfs的构架是怎样的

map-reduce程序运行的时候会有什么比较常见的问题

简单说一下hadoop和spark的shuffle过程

Hbase行健列族的概念，物理模型，表的设计原则？

Spark Streaming和Storm有何区别？

mllib支持的算法？

简答说一下hadoop的map-reduce编程模型？

Hadoop平台集群配置、环境变量设置？

Hadoop性能调优？

Hadoop高并发？

hadoop的TextInputFormat作用是什么，如何自定义实现？

hadoop和spark的都是并行计算，那么他们有什么相同和区别？

为什么要用flume导入hdfs，hdfs的构架是怎样的？

map-reduce程序运行的时候会有什么比较常见的问题？

简单说一下hadoop和spark的shuffle过程？

不配置spark.deploy.recoveryMode选项为ZOOKEEPER，会有什么不好的地方

多Master如何配置

No Space Left on the device

java.lang.OutOfMemory, unable to create new native

Worker节点中的work目录占用许多磁盘空间

spark-shell提交Spark Application如何解决依赖库

Spark在发布应用的时候，出现连接不上master问题

ERROR XSDB6: Another instance 。。。

java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

问题：在执行yarn集群或者客户端时，报以上错误

Spark Streaming 和kafka整合后读取消息报错： OffsetOutOfRangeException

运行Spark-SQL报错

在 echo $JAVA_HOME /home/pipi/ENV/jdk

想问一下阿里云，当前区块链技术中有哪些关键技术？

大数据考研or自学?

【大咖问答】对话《深入浅出 Node.js》作者，阿里云SDK团队负责人朴灵

大数据计算平台主要用在那些领域？

新的技术，比如大数据、AI如何应用在航空行业？

国内做政企大数据解决方案的企业有哪些？

什么是大数据平台，与Hadoop有何联系？

国内适合政府等使用的大数据产品有哪些？

Hadoop大数据技术在教育行业有什么具体应用呢？

Hadoop大数据底层平台有什么作用呢？怎么去操作使用？

函数计算绑定自定义域名实现https访问？

大数据与互联网结合发展趋势

大数据需要学习那些知识

大数据平台与Hadoop、HDFS、Mapreduce、YARN之间有何关系呢？

大数据存储这块，除了hbase，还有用过其他的吗？

数据如何进入到阿里云的大数据服务MaxCompute中？

java转大数据开发学习方向

在使用大数据开发套件中odps_sql，怎么实现一个任务，比如从原始表抽取12月份的数据，插入到新的表分区12月

Java对于大数据处理有没有好的方法？一直都只接触python处理海量数据，但是应该处理数据不可能仅仅局限于一种语言，或者说Java在这方面是不是存在某种缺陷。

web系统后台如何转型成架构师或大数据算法工程师?

flink 对比 spark 的优势很明显嘛？优势在哪些方面呢？

使用maven surefire进行比指定超时时间长的测试

大数据平台与Hadoop、HDFS、Mapreduce、YARN之间有何关系呢？

怎么在flink上面部署机器学习相关的算法呢？

用python写flink程序，从哪里import各种operation？

urllib在爬网站的时候出现这个错误，该怎么处理？

在flink集群模式下，能不能指定某个节点的solt来执行一个task？

如何在二维数组中分离不同的值

maxcompute有无sdk去创建任务的调度

当Spark在S3上读取大数据集时，在“停机时间”期间发生了什么？

国内基于Hadoop开发的大数据平台有哪些？有啥优势？

怎么在flink上面部署机器学习相关的算法呢？

用python写flink程序，从哪里import各种operation？

在flink集群模式下，能不能指定某个节点的solt来执行一个task？

如何在二维数组中分离不同的值

maxcompute有无sdk去创建任务的调度

当Spark在S3上读取大数据集时，在“停机时间”期间发生了什么？

国内基于Hadoop开发的大数据平台有哪些？有啥优势？

怎么在flink上面部署机器学习相关的算法呢？

Byte Buddy中的禁用标识符验证

jeprof的Java调试符号

flink用IDEA本地运行可以读取HDFS数据，然后把项目打包提交到flink集群，无法读取HDFS数据，出现以下错误，这是为何？

在rdd中分区数据并保存分区块

Spark，Scala：如何从Rdd或dataframe中删除空行？

编辑不同类中的position 值

使用“ Ctrl +空格键”时不显示@RequestMapping注释

spark - 持续存在两次RDD过程

【精品问答】大数据计算技术1000问

推荐回答:

相关文章

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【精品问答】大数据计算技术1000问

推荐回答:

相关文章