Hadoop笔试题一
一、选择题(2分每题,共20分)
1.下面哪个程序负责 HDFS 数据存储。
A NameNode
B Jobtracker
C Datanode
D tasktracker
2.HDfS 中的 block 默认保存几份?
A 3 份
B 2 份
C 1 份
D 不确定
3.下列哪个程序通常与 NameNode 在一个节点启动?
A SecondaryNameNode
B DataNode
C TaskTracker
D Jobtracker
4.HDFS 默认 Block Size 是多少()
A 16MB
B 32MB
C 64MB
D 128MB
5.下列哪项通常是集群的最主要瓶颈:
A CPU
B 网络
C 磁盘 IO
D 内存
6.Spark 支持的分布式部署方式中哪个是错误的 ()
A standalone
B spark on mesos
C spark on YARN
D Spark on local
7.下面哪个端口不是 spark 自带服务的端口 ( )
A.8080
B.4040
C.8090
D.18080
8.hive 的元数据存储在 derby 和 MySQL 中有什么区别 ( )
A.没区别
B.多会话
C.支持网络环境
D数据库的区别
9.DataFrame 和 RDD 最大的区别 ( )
A.科学统计支持
B.多了 schema
C.存储方式不一样
D.外部数据源支持
10.下面哪个操作是窄依赖 ( )
A join
B filter
C group
D sort
二、填空题(2分每空共30分)
11.1pb=____kb
12.大数据的4v特征分别是______、_______、_______、_______。
13.安装完全分布式Apache Hadoop的核心配置文件有______,______,_______,________。
14.Hdfs,yarn,hbase,以及spark资源监控,spark任务监控的默认web端口分为_________,________,________,_______,__________。
15.spark的on yarn client模式启动命令为__________________。
三、命令题(2分每题共10分)
16.删除 hdfs 上的/tmp/xxx 目录命令
17.hadoop的HDFS文件格式化命令
18.从hadoop0节点的opt目录下拷贝hive2.1.1文件夹,到hadoop1的opt目录下的命令
19.忘了hdfs-site.xml文件在哪了,如何通过命令找到它
20.初始化SparkContext命令
四、简答题(4分每题共20分)
21.Hadoop 集群可以运行的 3 个模式?
22.如何重启 Namenode?
23.当 JobTracker 宕掉时,Namenode 会发生什么?
24.HQuorumPeer进程和QuorumPeerMain进程区别是什么?
25.Spark RDD,DataFrame,DataSet三者之间的区别是什么?(简要描述)
五、代码题(5分每题共10分)
26.选取一种语言实现冒泡排序
27.用mapreduce实现词汇统计,简易描述map和reduce方法
六、逻辑智力题(5分每题共10分)
28.猎人、狼、男人和两个孩子、女人和两个孩子要过河,必须满足的条件:
1. 只有一条每次过两个人的船
2. 狼不能离开猎人同任何人独处
3. 男人的孩子不能与女人独处
4. 女人的孩子也不能与男人独处
5. 只有猎人、男人和女人会划船
问至少需要几次过?(说明过程)
29.赛马,有25匹马,每次只能5匹马进行比赛,比赛只能得到5匹马之间的快慢程度,而不是速度,请问,最少要比多少次,才能获得最快的前3匹马?
答案请参考