开发者社区> 问答> 正文

【精品问答】大数据常见技术问题100问

大数据常见技术问题100问

1.如何检查namenode是否正常运行?重启namenode的命令是什么?

2.hdfs存储机制是怎样的?

3.hadoop中combiner的作用是什么?

4.hadoop中combiner的作用是什么?

5.你们数据库怎么导入hive 的,有没有出现问题

6.hdfs-site.xml的3个主要属性?

7.ConcurrentHashMap 是怎么实现的?

8.sparksql 和 sparkstreaming 哪个比较熟

9.说一下 sparkshuffle

10.Spark Shuffle 的调优点

11.缓存这块熟悉吗,介绍缓存级别

12.说一下 cache 和 checkpoint 的区别

13.spark 运行模式 local local[] local[*] 分别是什么

14.Spark 怎么设置垃圾回收机制 ?

15.一台节点上以 root 用户执行一个 spark 程序,以其他非 root 用户也同时在执行

16.hive 怎么解决数据倾斜的问题?

17.数据倾斜的原因

18.如果链表的实现方式中 hash 的值有冲突的话,怎么解决?如果解决以后怎么解决再链表的常数次的查询

19.HDFS 的读写流程细节?HDFS 中的 fsimage 里面存储的是什么信息?副本的存放策略?

20.HDFS 的机架感知?

21.如果 Client 节点就在 HDFS 中的一台 DataNode 节点上,副本的数据又是如何存储的

22.Spark 的提交方式?

23.Spark 的提交方式?

24.hadoop 支持三种调度器

25.编写 mapreduce 的方式

26.hive 保存元数据的方式有三种

27.hadoop 二级排序

28.内部表&外部表

29.冒泡排序

30.二分查找

31.递归的方式实现

32.单链表反转

33.插入排序

34.选择排序

35.你认为用 Java、streaming、pipe 方式开发 map/reduce , 各有哪些优点

36.hive 有哪些方式保存元数据,各有哪些优点

37.请简述 hadoop 怎样实现二级排序(对 key 和 value 双排序)

38.请简述 mapreduce 中的 combine 和 partition 的作用

39.Hbase 的 rowKey 怎么创建比较好

40.用 mapreduce 怎么处理数据倾斜问题

41.hadoop 框架怎么来优化

42.hbase 内部机制是什么

43.hadoop 中常用的数据压缩算法

44.mapreduce 的作业调度模式

48.hive 底层与数据库交互原理

46.hdfs 的体系结构

47.flush 的过程

48.什么是队列

49.Spark 都有什么算子?

50.List 与 set 的区别

51.数据的三范式

52.三个 datanode 中当有一个 datanode 出现错误时会怎样?

53.sqoop 在导入数据到 mysql 中,如何不重复导入数据,如果存在数据问题,sqoop 如何处

54..MapReduce 优化经验

55.mapreduce 的大致流程

56.搭建 hadoop 集群 , master 和 slaves 都运行哪些服务

57.hadoop 运行原理

58.HDFS 存储机制

59.spark on yarn 和 mapreduce 中 yarn 有什么区别

60.用 scala 写一个 wordcount ?

61.scala 中的隐式函数的关键字?

62.val x=y=1 结果是什么?

63.编译好的 scala 程序,运行的时候还需要 scala 环境吗?

64.介绍下 kafka 容错性

65.zookeeper 原子广播协议

66.hbase 优化 rowkey 设计

67.内部表外部表的区别 hdfs 数据导入到 hive 的语法

68.cache 和 persist 的区别

69.reduceBykey 和 groupByKey哪个快?

70.工厂模式

71.udf 和 uda f写过吗?有什么区别?有一个场景,用 udf 实现一个字段自增怎么弄?

72.kafka 数据落地磁盘有哪些好处?

73.怎么优化 shffle

74.rdd 怎么转 dataFrame

75.zookeeper 脑裂

76.多线程有几种创建方式?

77.代码怎么确定二叉树的高度?

78.为什么选择 kafka kafka 为什么快

79.spark 和 storm 的区别?

80.persist 和 checkpoint 的区别

81.spark 和 mapreduce 的对比

82.fsimage和edit的区别?

83.列举几个配置文件优化?

84.datanode 首次加入 cluster 的时候,如果 log 报告不兼容文件版本,那需要name

85.MapReduce 中排序发生在哪几个阶段?这些排序是否可以避免?为什么?

86.hadoop的优化

87.请列出你所知道的 hadoop 调度器,并简要说明其工作方法?

88.请简述 mapreduce 中,combiner,partition 作用?

89.mr 的工作原理

90.hive 有哪些方式保存元数据,各有哪些特点?

91.生产环境中为什么建议使用外部表?

92.假如一个分区的数据主部错误怎么通过hivesql删除hdfs

93.如何检查namenode是否正常运行?重启namenode的命令是什么?

94.hdfs存储机制是怎样的?

95.hadoop中combiner的作用是什么?

96.你们数据库怎么导入hive 的,有没有出现问题

97.hdfs-site.xml的3个主要属性?

98.是否可以在Windows上运行Hadoop?

99.对大数据组件的理解?

100.HDFS上传文件的流程

技术交流群

加入阿里云钉钉群享福利:每周技术直播,定期群内有奖活动、大咖问答

image

展开
收起
珍宝珠 2020-02-17 13:02:59 2779 0
1 条回答
写回答
取消 提交回答
  • 已收藏

    2020-02-21 17:46:02
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Data+AI时代大数据平台应该如何建设 立即下载
大数据AI一体化的解读 立即下载
极氪大数据 Serverless 应用实践 立即下载