Hadoop面试题(一)

简介: 集群的最主要瓶颈、Hadoop运行模式、Hadoop生态圈的组件、“hadoop”和“hadoop 生态系统”两个概念、正常工作的Hadoop集群有哪些。

1、集群的最主要瓶颈


磁盘IO


2、Hadoop运行模式


单机版、伪分布式模式、完全分布式模式


3、Hadoop生态圈的组件并做简要描述


1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。


2)Flume:一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。


3)Hbase:是一个分布式的、面向列的开源数据库, 利用Hadoop HDFS作为其存储系统。


4)Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据档映射为一张数据库表,并提供简单的sql 查询功能,可以将sql语句转换为MapReduce任务进行运行。


5)Sqoop:将一个关系型数据库中的数据导进到Hadoop的 HDFS中,也可以将HDFS的数据导进到关系型数据库中。


4、解释“hadoop”和“hadoop 生态系统”两个概念


Hadoop是指Hadoop框架本身;hadoop生态系统,不仅包含hadoop,还包括保证hadoop框架正常高效运行其他框架,比如zookeeper、Flume、Hbase、Hive、Sqoop等辅助框架。


5、请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程,它们的作用分别是什么?


1)NameNode:它是hadoop中的主服务器,管理文件系统名称空间和对集群中存储的

文件的访问,保存有metadate。


2)SecondaryNameNode:它不是namenode的冗余守护进程,而是提供周期检查点和清理任务。帮助NN合并editslog,减少NN启动时间。


3)DataNode:它负责管理连接到节点的存储(一个集群中可以有多个节点)。每个存储数据的节点运行一个datanode守护进程。


4)ResourceManager(JobTracker):JobTracker负责调度DataNode上的工作。每个DataNode有一个TaskTracker,它们执行实际工作。


5)NodeManager:(TaskTracker)执行任务。


6)DFSZKFailoverController:高可用时它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只有两个节点,目前选择策略还比较简单(先到先得,轮换)。


7)JournalNode:高可用情况下存放namenode的editlog文件。

目录
相关文章
|
SQL 分布式计算 Hadoop
Hadoop Hive面试连环炮 1
Hadoop Hive面试连环炮
69 0
|
6月前
|
存储 SQL 分布式计算
【史上最全】Hadoop精选18道面试题(附回答思路)
【史上最全】Hadoop精选18道面试题(附回答思路)
475 1
【史上最全】Hadoop精选18道面试题(附回答思路)
|
6月前
|
分布式计算 资源调度 监控
Hadoop生态系统深度剖析:面试经验与必备知识点解析
本文深入探讨了Hadoop生态系统的面试重点,涵盖Hadoop架构、HDFS、YARN和MapReduce。了解Hadoop的主从架构、HDFS的读写流程及高级特性,YARN的资源管理与调度,以及MapReduce编程模型。通过代码示例,如HDFS文件操作和WordCount程序,帮助读者巩固理解。此外,文章强调在面试中应结合个人经验、行业动态和技术进展展示技术实力。
126 0
|
6月前
|
存储 分布式计算 资源调度
2022年Hadoop面试题最全整理,两万字干货分享【建议收藏】
2022年Hadoop面试题最全整理,两万字干货分享【建议收藏】
862 0
|
6月前
|
资源调度 分布式计算 Hadoop
大数据面试题百日更新_Hadoop专题_Yarn专题(Day11)
大数据面试题百日更新_Hadoop专题_Yarn专题(Day11)
72 0
|
6月前
|
分布式计算 Hadoop 大数据
大数据面试题百日更新_Hadoop专题(Day10)
大数据面试题百日更新_Hadoop专题(Day10)
52 0
|
6月前
|
分布式计算 Hadoop 大数据
大数据面试题百日更新_Hadoop专题(Day09)
大数据面试题百日更新_Hadoop专题(Day09)
49 0
|
6月前
|
分布式计算 Hadoop 大数据
大数据面试题百日更新_Hadoop专题(Day08)
大数据面试题百日更新_Hadoop专题(Day08)
33 0
|
6月前
|
分布式计算 Hadoop 大数据
大数据面试题百日更新_Hadoop专题(Day06)
大数据面试题百日更新_Hadoop专题(Day06)
43 0
|
6月前
|
分布式计算 Hadoop 大数据
字节跳动面试问到Hadoop源码,拿40K进大厂的Java程序员必备技能
大数据由于数据量庞大、数据类型复杂等特点,特别是非结构化或半结构化数据远远多于结构化数据,导致传统关系型数据库让企业面临巨大的成本压力。而 Hadoop 能够很好的提供解决大数据问题的技术手段。因此,Hadoop 技术在大数据中占据着举足轻重的作用,也很受企业的青睐。

相关实验场景

更多