上篇文章我们成功的搭建了hadoop的集群环境,本文来介绍下hadoop的基本操作
HDFS存储目录
1.存储目录结构
在datanode的hdfsdata目录下查看:
2.浏览器快速查看
常用命令
1.查看根目录下的所有文件
hadoop fs -ls /
2.上传文件
将a.txt文件上传到hdfs中
上传命令
hadoop fs -put a.txt /
浏览器中查看上传的文件
hadoop-node03节点存储结构中查看文件
3.查看上传文件内容
hadoop fs -cat /a.txt
4.下载文件
hadoop fs -get /a.txt
5.删除文件
hadoop fs -rm /a.txt
6.创建目录
[root@hadoop-node04 subdir0]# hadoop fs -mkdir /aaa [root@hadoop-node04 subdir0]# hadoop fs -mkdir -p /a1/b1/c1
大文件操作
上传一个超过128M的文件
文件拼接
将切割成两块的文件拼接成一个文件,我们看下是否可以解压使用。
[root@hadoop-node04 subdir0]# cat blk_1073741826 >> hadoop.file [root@hadoop-node04 subdir0]# cat blk_1073741827 >> hadoop.file
尝试解压缩
tar -zxvf hadoop.file
执行基本信息
1.查看HDFS的基本统计信息:
hadoop dfsadmin -report
2. 退出安全模式
NameNode在启动时会自动进入安全模式。安全模式是NameNode的一种状态,在这个阶段,文件系统不允许有任何修改。系统显示Name node in safe mode,说明系统正处于安全模式,这时只需要等待十几秒即可,也可通过下面的命令退出安全模式:
hadoop dfsadmin -safemode leave
3.进入安全模式
在必要情况下,可以通过以下命令把HDFS置于安全模式:
hadoop dfsadmin -safemode enter
常见的错误
初始化工作目录结构
hdfs namenode -format 只是初始化了namenode的工作目录,而datanode的工作目录是在datanode启动后自己初始化的
datanode不被namenode识别的问题
namenode在format初始化的时候会形成两个标识:blockPoolId,clusterId
新的datanode加入时,会获取这两个标识作为自己工作目录中的标识,一旦namenode重新format后,namenode的身份标识已变,而datanode如果依然持有原来的id,就不会被namenode识别
datanode下线后多久看到效果
datanode不是一下线就会被namenode认定为下线的,有一个超时时间
关于副本数量的问题
副本数由客户端的参数dfs.replication决定(优先级: conf.set > 自定义配置文件 > jar包中的hdfs-default.xml)

















