11g rac 又一节点无法启动的生产case!

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

一、环境描述
11g rac 双节点,AIX小型机

二、现象
节点2无法启动
crsctl start crs 执行报错。

三、问题分析处理
1.查看数据库日志

Archived Log entry 399348 added for thread 2 sequence 205493 ID 0xffffffff8452e669 dest 1:
Sat Dec 09 11:13:47 2017
Thread 2 advanced to log sequence 205495 (LGWR switch)
  Current log# 3 seq# 205495 mem# 0: +DATA/orcl2/onlinelog/group_3.257.890091875
Sat Dec 09 11:13:51 2017
Archived Log entry 399349 added for thread 2 sequence 205494 ID 0xffffffff8452e669 dest 1:
Sat Dec 09 11:24:07 2017
NOTE: ASMB terminating
Errors in file /u01/app/oracle/diag/rdbms/orcl2/PTS22/trace/PTS22_asmb_8847608.trc:
ORA-15064: ? ASM ??????
ORA-03113: ?????????
Errors in file /u01/app/oracle/diag/rdbms/orcl2/PTS22/trace/PTS22_asmb_8847608.trc:
ORA-15064: ? ASM ??????
ORA-03113: ?????????
ASMB (ospid: 8847608): terminating the instance due to error 15064
Sat Dec 09 11:24:07 2017
--判断可能是通信问题
orcldb2:/u01/app/oracle/diag/rdbms/orcl2/orcl22/trace$oerr ora 15064
15064, 00000, "communication failure with ASM instance"
// *Cause:  There was a failure to communicate with the ASM instance, most
//          likely because the connection went down.
// *Action: Check the accompanying error messages for more information on the
//          reason for the failure.  Note that database instances will always
//          return this error when the ASM instance is terminated abnormally.

2.查看集群日志

2017-12-09 11:23:51.026
[cssd(7667900)]CRS-1612:Network communication with node orcldb1 (1) missing for 50% of timeout interval.  Removal of this node from cluster in 14.523 seconds
2017-12-09 11:23:59.039
[cssd(7667900)]CRS-1611:Network communication with node orcldb1 (1) missing for 75% of timeout interval.  Removal of this node from cluster in 6.509 seconds
2017-12-09 11:24:03.052
[cssd(7667900)]CRS-1610:Network communication with node orcldb1 (1) missing for 90% of timeout interval.  Removal of this node from cluster in 2.497 seconds
2017-12-09 11:24:05.552
[cssd(7667900)]CRS-1609:This node is unable to communicate with other nodes in the cluster and is going down to preserve cluster integrity; details at (:CSSNM00008:) in /u01/app/11.2.0/grid/log/orcldb2/cssd/ocssd.log.
2017-12-09 11:24:05.552
[cssd(7667900)]CRS-1656:The CSS daemon is terminating due to a fatal error; Details at (:CSSSC00012:) in /u01/app/11.2.0/grid/log/orcldb2/cssd/ocssd.log
2017-12-09 11:24:05.614
[cssd(7667900)]CRS-1652:Starting clean up of CRSD resources.

3.查看系统日志

IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
FE2DEE00   1209123617 P S SYSXAIXIF      DUPLICATE IP ADDRESS DETECTED IN THE NET
FE2DEE00   1209122517 P S SYSXAIXIF      DUPLICATE IP ADDRESS DETECTED IN THE NET
FE2DEE00   1209114417 P S SYSXAIXIF      DUPLICATE IP ADDRESS DETECTED IN THE NET
FE2DEE00   1209114317 P S SYSXAIXIF      DUPLICATE IP ADDRESS DETECTED IN THE NET
A924A5FC   1209112417 P S SYSPROC        SOFTWARE PROGRAM ABNORMALLY TERMINATED

综上所以的日志都指向数据库通信可能有问题。

检查心跳网络,在节点一上ping 节点二是通的,ping自己当然也是通的。
这里感觉好奇怪,貌似心跳也没问题啊。各种问好??????整理下思路,在节点二上ping 节点一,好嘛,真心ping不通。找到这个问题之后和客户沟通,发现网络刚刚做了调整导致的。经过网络工程师的处理。心跳网络恢复。轮到我上了,把集群给拉起来。

--root用户执行
crsctl stop crs --报错
crsctl stop crs -f 强制关闭
crsctl start crs
crsctl stat res -t

四、小结:
1.从来都没有奇怪的问题,只有没有被发现的问题和你不知道的问题。
2.任何时候都要有耐心去查看日志分析问题。要有耐心、耐心、耐心!!!










本文转自 roidba 51CTO博客,原文链接:http://blog.51cto.com/roidba/2049611,如需转载请自行联系原作者

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
6月前
rac 节点驱逐
rac 节点驱逐
47 0
|
3月前
|
Oracle 关系型数据库
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
|
Oracle 关系型数据库 数据库
RAC中,控制文件的快照文件必须能够被所有节点的数据实例访问到 ORA-00245
RMAN在使用控制文件备份的时候,备份开始点需要最新的检查点信息以及文件头信息。
113 0
11g rac em重建
emca -config dbcontrol db -repos create -cluster
169 0
|
Oracle 关系型数据库 数据库
|
Oracle 关系型数据库
oracle rac 添加节点常用命令
rac 添加节点常用命令
94 0
|
Oracle 关系型数据库 测试技术
Oracle 11G ADG 搭建 RAC to Single 详细教程(RMAN DUPLICATE)
经过交流群中朋友的多次要求,这次给大家分享一下 RAC to Single 的 ADG 搭建教程!
Oracle 11G ADG 搭建 RAC to Single 详细教程(RMAN DUPLICATE)
|
存储 文字识别 Oracle
神龙RAC节点1无法启动问题处理
神龙Oracle rac由于空间问题希望扩容根目录,扩容失败,导致相关的asm磁盘组多路径映射出现问题导致集群挂起,之后进行集群恢复过程处理
792 0
神龙RAC节点1无法启动问题处理
|
Oracle 关系型数据库 专有云
阿里专有云3.6.1版本云上rac安装节点驱逐问题
阿里专有云云上Oracle rac节点驱逐解决方案
2756 0
|
数据库 网络架构 关系型数据库
11g grid rac更改心跳ip地址
grid rac更改心跳ip地址
2093 0