DN启动“假死?”

简介:

上个周末线上突然2Datanode Server挂掉(panic原因调查中),后来机房人员重启后一个DN一直在pending住没有注册成功,日志卡在初始化没有任何输出,发现原来是一个DN线程阻塞住了另一个DN,细究如下:

线上NN启用了HA模式,因此DN在启动时会启动2BPServiceActor线程对2NN进行注册,其会调用BPOfferServiceverifyAndSetNamespaceInfo方法,而这个方法是同步方法(以防止NPE),因此当一个BPServiceActor进行注册时(FSDataSet初始化,这个过程可能会比较慢),另一个线程会被Block住,这时DN的日志可能什么都没有输出,稍等会儿就OK.



本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1323553,如需转载请自行联系原作者


相关文章
|
6月前
|
监控 NoSQL 安全
【亲测有效】connection refused报错 为什么redis 进程突然挂掉,频繁出现redis 进程突然挂掉情况解决方案
【亲测有效】connection refused报错 为什么redis 进程突然挂掉,频繁出现redis 进程突然挂掉情况解决方案
349 0
|
8月前
|
存储
NameNode 故障无法重新启动解决方法
当NameNode进程挂掉时,若无数据丢失,可直接使用`hdfs --daemon start namenode`重启。但若数据丢失,需从SecondaryNameNode恢复。首先查看启动日志,确认因数据丢失导致的未启动成功问题。接着,将SecondaryNameNode的备份数据拷贝至NameNode的数据存储目录,目录路径在`core-site.xml`中设定。进入NameNode节点,使用`scp`命令从SecondaryNameNode复制数据后,重启NameNode进程,故障即可修复。
915 0
|
8月前
|
关系型数据库 数据库 OceanBase
重启集群中所有节点的 observer 进程
重启集群中所有节点的 observer 进程
68 0
|
消息中间件 存储 JSON
kill -9 导致 Kakfa 重启失败的惨痛经历!
0.11 版本的 kafka 的 unclean.leader.election.enable 参数默认为 false,表示分区不可在 ISR 以外的副本选举 leader,导致了 A 主题发送消息持续报 34 分区 leader 不存在的错误,且该分区还未消费的消息不能继续消费了。接下来运维在 kafka-manager 查不到 broker0 节点了处于假死状态,但是进程依然还在,重启了好久没见反应,然后通过 kill -9 命令杀死节点进程后,接着重启失败了,导致了如下问题
327 0
kill -9 导致 Kakfa 重启失败的惨痛经历!
|
数据可视化 Linux
程序挂了之后别再跟我说让我帮你重启啦! 让supervisor帮你搞定...
程序挂了之后别再跟我说让我帮你重启啦! 让supervisor帮你搞定...
370 0
程序挂了之后别再跟我说让我帮你重启啦! 让supervisor帮你搞定...
ZK集群启动停止脚本
ZK集群启动停止脚本
224 0
|
分布式计算 Hadoop Shell
Regionserver启动后又关闭
Regionserver启动后又关闭
221 0
Giraph源码分析(四)—— Master 如何检查Worker启动成功
本文的目的 说明Giraph如何借助ZooKeeper来实现Master与Workers间的同步(不太确定)。 环境 在单机上(机器名:giraphx)启动了2个workers。 Giraph遵从单Master多Workers结构,BSPServiceMaster使用MasterThread线程来进行全局的同步。
|
人工智能 大数据 分布式数据库
regionserver启动后又关闭
欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! 今天启动hbase shell,输入hbase命令时报错: ERROR [regionserver/regionserver1/172.
1011 0