备案控制台

开发者社区问答正文

【精品问答】大数据常见技术问题100问

大数据常见技术问题100问

1.如何检查namenode是否正常运行?重启namenode的命令是什么?

2.hdfs存储机制是怎样的?

3.hadoop中combiner的作用是什么?

4.hadoop中combiner的作用是什么?

5.你们数据库怎么导入hive 的,有没有出现问题

6.hdfs-site.xml的3个主要属性?

7.ConcurrentHashMap 是怎么实现的？

8.sparksql 和 sparkstreaming 哪个比较熟

9.说一下 sparkshuffle

10.Spark Shuffle 的调优点

11.缓存这块熟悉吗，介绍缓存级别

12.说一下 cache 和 checkpoint 的区别

13.spark 运行模式 local local[] local[*] 分别是什么

14.Spark 怎么设置垃圾回收机制？

15.一台节点上以 root 用户执行一个 spark 程序，以其他非 root 用户也同时在执行

16.hive 怎么解决数据倾斜的问题？

17.数据倾斜的原因

18.如果链表的实现方式中 hash 的值有冲突的话，怎么解决？如果解决以后怎么解决再链表的常数次的查询

19.HDFS 的读写流程细节？HDFS 中的 fsimage 里面存储的是什么信息？副本的存放策略？

20.HDFS 的机架感知？

21.如果 Client 节点就在 HDFS 中的一台 DataNode 节点上，副本的数据又是如何存储的

22.Spark 的提交方式？

23.Spark 的提交方式？

24.hadoop 支持三种调度器

25.编写 mapreduce 的方式

26.hive 保存元数据的方式有三种

27.hadoop 二级排序

28.内部表&外部表

29.冒泡排序

30.二分查找

31.递归的方式实现

32.单链表反转

33.插入排序

34.选择排序

35.你认为用 Java、streaming、pipe 方式开发 map/reduce ，各有哪些优点

36.hive 有哪些方式保存元数据，各有哪些优点

37.请简述 hadoop 怎样实现二级排序（对 key 和 value 双排序）

38.请简述 mapreduce 中的 combine 和 partition 的作用

39.Hbase 的 rowKey 怎么创建比较好

40.用 mapreduce 怎么处理数据倾斜问题

41.hadoop 框架怎么来优化

42.hbase 内部机制是什么

43.hadoop 中常用的数据压缩算法

44.mapreduce 的作业调度模式

48.hive 底层与数据库交互原理

46.hdfs 的体系结构

47.flush 的过程

48.什么是队列

49.Spark 都有什么算子?

50.List 与 set 的区别

51.数据的三范式

52.三个 datanode 中当有一个 datanode 出现错误时会怎样？

53.sqoop 在导入数据到 mysql 中，如何不重复导入数据，如果存在数据问题，sqoop 如何处

54..MapReduce 优化经验

55.mapreduce 的大致流程

56.搭建 hadoop 集群， master 和 slaves 都运行哪些服务

57.hadoop 运行原理

58.HDFS 存储机制

59.spark on yarn 和 mapreduce 中 yarn 有什么区别

60.用 scala 写一个 wordcount ？

61.scala 中的隐式函数的关键字？

62.val x=y=1 结果是什么？

63.编译好的 scala 程序，运行的时候还需要 scala 环境吗?

64.介绍下 kafka 容错性

65.zookeeper 原子广播协议

66.hbase 优化 rowkey 设计

67.内部表外部表的区别 hdfs 数据导入到 hive 的语法

68.cache 和 persist 的区别

69.reduceBykey 和 groupByKey哪个快？

70.工厂模式

71.udf 和 uda f写过吗？有什么区别？有一个场景，用 udf 实现一个字段自增怎么弄？

72.kafka 数据落地磁盘有哪些好处？

73.怎么优化 shffle

74.rdd 怎么转 dataFrame

75.zookeeper 脑裂

76.多线程有几种创建方式？

77.代码怎么确定二叉树的高度？

78.为什么选择 kafka kafka 为什么快

79.spark 和 storm 的区别？

80.persist 和 checkpoint 的区别

81.spark 和 mapreduce 的对比

82.fsimage和edit的区别？

83.列举几个配置文件优化？

84.datanode 首次加入 cluster 的时候，如果 log 报告不兼容文件版本，那需要name

85.MapReduce 中排序发生在哪几个阶段？这些排序是否可以避免？为什么？

86.hadoop的优化

87.请列出你所知道的 hadoop 调度器，并简要说明其工作方法？

88.请简述 mapreduce 中，combiner，partition 作用？

89.mr 的工作原理

90.hive 有哪些方式保存元数据，各有哪些特点？

91.生产环境中为什么建议使用外部表？

92.假如一个分区的数据主部错误怎么通过hivesql删除hdfs

93.如何检查namenode是否正常运行？重启namenode的命令是什么？

94.hdfs存储机制是怎样的？

95.hadoop中combiner的作用是什么？

96.你们数据库怎么导入hive 的,有没有出现问题

97.hdfs-site.xml的3个主要属性?

98.是否可以在Windows上运行Hadoop?

99.对大数据组件的理解？

100.HDFS上传文件的流程

技术交流群

加入阿里云钉钉群享福利：每周技术直播，定期群内有奖活动、大咖问答

展开

收起

珍宝珠 2020-02-17 13:02:59 2823 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

已收藏

2020-02-21 17:46:02

赞同展开评论

问答分类：

大数据云原生大数据计算服务 MaxCompute 微服务引擎云消息队列 Kafka 版云数据库HBase版云数据库 RDS MySQL 版

问答标签：

云原生大数据计算服务 MaxCompute技术问答云原生大数据计算服务 MaxCompute

问答地址：

开发者社区 > 大数据 > 问答

相关问答

FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？

3059

60

0

大数据平台架构经历了哪三个阶段的技术演进？

143

1

0

MaxCompute有没有通过docker把tar.gz文件编译成wheel文件的技术说明书？

205

4

0

塑云科技如何通过KafKa+OTS+MaxCompute完成物联网系统技术重构？

126

2

0

AI加持的阿里云飞天大数据平台在技术上有哪些创新？

170

1

0

RDMA技术的主要优势是什么？它如何帮助大数据分布式计算优化？

318

1

0

在大数据计算MaxCompute中dataworks的实时同步任务，底层用的是什么技术组件呢？

88

1

0

对于大数据技术趋势怎么看？

65

1

0

大数据分析和统计学分析有何区别？做大数据分析的核心竞争力主要在于技术掌握，还是对于业务的掌握?

238

1

0

程序员应该如何学好大数据技术？

109

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

个人非公司，可以使用阿里云短信群发平台吗？

阿里云短信收费标准，短信群发平台是怎么收费的？

通义灵码使用代理报错

相关文章

2025年数据治理工具哪家好？国内数据治理厂商推荐

从“攒一锅再算”到“来一条就干一条”：大数据批处理到流处理的进化之路

基于SpringBoot的番茄种植全流程管理系统

到底该选谁？Hadoop、Spark、Flink、云大数据的“江湖全景图”

Redis中的scan命令使用解析:

还有其他疑问?