第1章 Hadoop 入门
一:单选题
1:如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?
A.200
B.40000
C.400
D.1200
2:关于HDFS安全模式说法正确的是?()
A.在安全模式下只能写不能读
B.在安全模式下只能读不能写
C.在安全模式下读写都不允许
D.在安全模式下读写都可以
3:以下哪个不是HDFS的守护进程?
A.secondarynamenode
B.datanode
C.mrappmaster/yarnchild
D.namenode
4:Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是?
A.32M
B.64M
C.128M
D.256M
5:如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)?
A.200
B.40000
C.400
D.1200
6:请问以下哪个命令组成是错误的?
A.sbin/stop-dfs.sh
B.sbin/hdfs dfsadmin -report
C.bin/hadoop namenode -format
D.bin/hadoop fs -cat /hadoopdata/my.txt
7:下面关于hdfs中SecondaryNameNode描述正确的一项是()
A.它是NameNode的热备
B.它对内存没有要求
C.它的目的是帮助NameNode合并editlog,减少NameNode 启动时间
D.SecondaryNameNode应与NameNode 部署到一个节点
8:下列不是属于Apache中和Hadoop相关的项目是?
A.Avro
B.Kettle
C.Zookeeper
D.Hive
9:Hadoop名字的来源是?
A.由一个大象玩具而来
B.由一个汽车玩具而来
C.由一篇报纸而来
D.由灵感想象而来
10 Hadoop的起源时间是?
A.1998
B.1999
C.2002
D.2008
11:Hadoop最基础的功能是?
A.存储和处理海量数据的能力
B.快速编写程序
C.加快数据的读取
D.数据挖掘
12:Hadoop的开发需要使用什么账户进行登录Linux系统?
A.游客
B.root
C.自定义
D.任意
13:VMware提供的几种工作模式?
A.1
B.2
C.3
D.4
14:设置静态IP 的时候,GATEWAY的含义是?
A.IP地址
B.网关
C.子网掩码
D.随意的数字
:Linux查看IP 的命令是?
A.ifconfig
B.ipconfig
C.config
D.ip
16:配置主机名和IP地址映射的文件位置是?
A./home/hosts
B./usr/local/hosts
C./etc/host
D./etc/hosts
17:解压名为JDK.tar.gz的压缩文件的语句命令是?
A.tar -zxvf JDK.tar.gz
B.tar JDK
C.tar JDK.tar.gz
D.tar zxvf JDK.tar.gz
18:配置环境变量的文件名可以是?
A./etc/profile
B./etc/hosts
C.~.barece
D./usr/local/profile
19:下面哪个程序负责HDFS数据存储。
A.NameNode
B.Jobtracker
C.Datanode
D.secondaryNameNode
20:HDfS中的block默认保存几份?
A.1份
B.2份
C.3份
D.不确定
21:下列哪个程序通常与NameNode在一个节点启动?
A.SecondaryNameNode
B.DataNode
C.TaskTracker
D.Jobtracker
22:Hadoop作者是
A.Martin Fowler
B.Kent Beck
C.Doug cutting
D.James Gosling
23:下列哪项通常是集群的最主要的性能瓶颈
A.CPU
B.网络(次之,数据传输)
C.磁盘(IO读写)
D.内存
24:关于SecondaryNameNode哪项是正确的?
A.它对内存没有要求
B.它是NameNode的热备
C.SecondaryNameNode应与NameNode部署到一个节点
D.它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间
25:下列哪个不是Hadoop运行的模式
A.单机版
B.伪分布式
C.分布式
D.网络式
26:关于 Hadoop 单机模式和伪分布式模式的说法 ,正确的是
A.两者都起守护进程 ,且守护进程运行在一台机器上
B.单机模式不使用 HDFS,但加载守护进程
C.两者都不与守护进程交互 ,避免复杂性
D.后者比前者增加了 HDFS 输入输出以及可检查内存使用情况
27:HDFS 默认的当前工作目录是 /user/$USER ,fs.default.name 的值需要在哪
个配置文件内说明
A.mapred-site.xml
B.core-site.xml
C.hdfs-site.xml
D.以上均不是
28:配置 Hadoop 时,JAVA_HOME包含在哪一个配置文件中
A.hadoop-default.xml
B.hadoop-env.sh
C.hadoop-site.xml
D.configuration.xsl
29:HDFS 是基于流数据模式访问和处理超大文件的需求而开发的 ,具有高容错 、高可靠性 、
高可扩展性 、高吞吐率等特征 ,适合的读写任务是 ______。
A.一次写入 ,少次读
B.多次写入 ,少次读
C.多次写入 ,多次读
D.一次写入 ,多次读
0:大数据的特点不包括下面哪一项
A.巨大的数据量
B.多结构化数据
C.增长速度快
D.价值密度高
31:Doug Cutting 所创立的项目的名称都受到其家人的启发 ,以下项目不是由他创立的项目是
A.Hadoop
B.Nutch
C.Lucene
D.Solr
二:填空题
1:启动移动通讯业务处理平台的全部进程命令:
$HADOOP_HOME/sbin/start-all.sh
2:现在在hadoop集群当中的配置文件中有这么两个配置,请问假如集群当中有一个节点宕机,主节点namenode需要
34
秒才能感知到?
三:主观题
1:简述hdfs-site.xml配置文件中需要配置的3个属性名称及含义
三个主要属性: 1、dfs.name.dir决定的是元数据存储的路径以及HDFS的存储方式(磁盘或远端)。 2、dfs.data.dir 决定数据存储的路径。 3、fs.checkpoint.dir 用于第二namenode。
2:hadoop的三种运行模式。
1.独立(本地)运行模式:无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用 。 2.伪分布式模式: Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。 3.完全分布式模式:Hadoop守护进程运行在一个集群上。
3:在移动通讯业务处理平台上启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
4:在移动通讯业务处理平台上启动YARN
$HADOOP_HOME/sbin/start-yarn.sh