问题描述
我的hadoop版本是hadoop-cdh4.2.0,由于误删了/tmp目录(不是hadoop.tmp.dir设定的那个目录),在Namenode,SecondaryNamenode和Datanode上使用jps无法查看到如下结果:
[root@desktop1 ~]# jps 5389 NameNode 5980 Jps 5710 ResourceManager 7032 JobHistoryServer [root@desktop2 ~]# jps 3187 Jps 3124 SecondaryNameNode [root@desktop3 ~]# jps 3187 Jps 3124 DataNode 5711 NodeManager同时,在namenode上, 启停dfs和yarn都无效,显示 no namenode to stop, no datanode to stop 等等。而整个 hadoop集群是正常运转的。
排查原因
jps查看起的进程需要读取/tmp目录下的一些内容。另一方面,在启停hadoop的脚本里,比如
sbin/stop-yarn.sh实际使用的是
sbin/yarn-deamon.sh该脚本描述里写道:
# Runs a yarn command as a daemon. # # Environment Variables # # YARN_CONF_DIR Alternate conf dir. Default is ${YARN_HOME}/conf. # YARN_LOG_DIR Where log files are stored. PWD by default. # YARN_MASTER host:path where hadoop code should be rsync'd from # YARN_PID_DIR The pid files are stored. /tmp by default. # YARN_IDENT_STRING A string representing this instance of hadoop. $USER by default # YARN_NICENESS The scheduling priority for daemons. Defaults to 0.根据 Y ARN_PID_DIR The pid files are stored. /tmp by default. /tmp目录保存的是pid的进程号,集群无法启停,jps无法查看进程都是因为丢失了pid,或者与/tmp下当前的pid进程号对不上,我的解决方法就是查看各节点上的进程然后替换pid文件里的内容,实施后证明是可行的
解决方案
使用netstat查看pid进程号,
ps -ef | grep datanode | grep -v grep
namenode查看namenode和resourcemanager,/tmp下文件为hadoop-root-namenode.pid和 yarn-root-resourcemanager.pid
secondarynamenode查看secondarynamenode,/tmp下文件为hadoop-root-secondarynamenode.pid
datanode查看datanode和nodemanager,/tmp下文件为hadoop-root-datanode.pid和yarn-root-nodemanager.pid
(以上root为user名字)
下面是我使用的替换datanode机器上的pid的一个脚本,可以参考使用
> /tmp/hadoop-root-datanode.pid && echo `ps -ef | grep datanode | grep -v grep | awk '{print $2}'` > /tmp/hadoop-root-datanode.pid > /tmp/yarn-root-nodemanager.pid && echo `ps -ef | grep nodemanager | grep -v grep | awk '{print $2}'` > /tmp/yarn-root-nodemanager.pid所有机器上都更新好pid文件后,就可以去namenode上启停集群了,jsp命令也生效了。
(全文完)