大数据常见技术问题100问
1.如何检查namenode是否正常运行?重启namenode的命令是什么?
8.sparksql 和 sparkstreaming 哪个比较熟
13.spark 运行模式 local local[] local[*] 分别是什么
15.一台节点上以 root 用户执行一个 spark 程序,以其他非 root 用户也同时在执行
17.数据倾斜的原因
18.如果链表的实现方式中 hash 的值有冲突的话,怎么解决?如果解决以后怎么解决再链表的常数次的查询
19.HDFS 的读写流程细节?HDFS 中的 fsimage 里面存储的是什么信息?副本的存放策略?
20.HDFS 的机架感知?
21.如果 Client 节点就在 HDFS 中的一台 DataNode 节点上,副本的数据又是如何存储的
22.Spark 的提交方式?
23.Spark 的提交方式?
27.hadoop 二级排序
28.内部表&外部表
29.冒泡排序
30.二分查找
31.递归的方式实现
32.单链表反转
33.插入排序
34.选择排序
35.你认为用 Java、streaming、pipe 方式开发 map/reduce , 各有哪些优点
37.请简述 hadoop 怎样实现二级排序(对 key 和 value 双排序)
38.请简述 mapreduce 中的 combine 和 partition 的作用
46.hdfs 的体系结构
47.flush 的过程
48.什么是队列
51.数据的三范式
52.三个 datanode 中当有一个 datanode 出现错误时会怎样?
53.sqoop 在导入数据到 mysql 中,如何不重复导入数据,如果存在数据问题,sqoop 如何处
56.搭建 hadoop 集群 , master 和 slaves 都运行哪些服务
57.hadoop 运行原理
58.HDFS 存储机制
59.spark on yarn 和 mapreduce 中 yarn 有什么区别
63.编译好的 scala 程序,运行的时候还需要 scala 环境吗?
67.内部表外部表的区别 hdfs 数据导入到 hive 的语法
69.reduceBykey 和 groupByKey哪个快?
70.工厂模式
71.udf 和 uda f写过吗?有什么区别?有一个场景,用 udf 实现一个字段自增怎么弄?
73.怎么优化 shffle
75.zookeeper 脑裂
76.多线程有几种创建方式?
83.列举几个配置文件优化?
84.datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要name
85.MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?
86.hadoop的优化
87.请列出你所知道的 hadoop 调度器,并简要说明其工作方法?
88.请简述 mapreduce 中,combiner,partition 作用?
89.mr 的工作原理
92.假如一个分区的数据主部错误怎么通过hivesql删除hdfs
93.如何检查namenode是否正常运行?重启namenode的命令是什么?
99.对大数据组件的理解?
100.HDFS上传文件的流程
加入阿里云钉钉群享福利:每周技术直播,定期群内有奖活动、大咖问答
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。