一则报警信息所折射出来的诸多问题

简介: 在主备库环境中,如果出现数据文件级的一些不一致,后期修复会很麻烦,所以这种情况可以提前规避,减少后期的隐患,我定制了一个数据库监控选项,即数据文件状态的检查。 最近几天,在半夜的时候,我总会收到这么一则报警信息,最开始没有留意,看报警信息是在备库中。
在主备库环境中,如果出现数据文件级的一些不一致,后期修复会很麻烦,所以这种情况可以提前规避,减少后期的隐患,我定制了一个数据库监控选项,即数据文件状态的检查。
最近几天,在半夜的时候,我总会收到这么一则报警信息,最开始没有留意,看报警信息是在备库中。
[DB监控系统]_ora_stest2_s2_yangjr@10.127.xxxx_报警
ZABBIX-监控系统:
------------------------------------
报警内容: datafile status issue
------------------------------------
报警级别: PROBLEM
------------------------------------
监控项目: dbf_status:datafile status issue:+DATA/sgstatdb3/datafile/tlserlog_data_20160704.659.909619203:RECOVER
------------------------------------
报警时间:2016.05.29-02:13:56
今天想起来这个问题,还是有些奇怪,决定好好检查一番。
在检查过程中,发现了不少的小问题。
首先,这其实是一个主库,上周五以前是一个备库,做了主备切换之后,监控系统中的信息没有更新及时,所以这是一个问题。
当然这个问题说大也大,说下也小,怎么理解呢,如果对这个问题进一步分析,就会发现,报警信息中的提示是在ASM存储的数据文件状态显示为RECOVER,而目前的主库中没有ASM存储,所以由此可以判断这个数据的结果还是来自于备库,那么为什么会出现这种情况呢。
简单查看了一下Orabbix的配置发现,配置信息中已经修改了JDBC连接信息,但是实际上后台还是在连接原来的主库,而这种情况该如何修复呢,其实就是在Orabbix中重新初始化一番,即从当前的数据配置列表中删除现在的主库,然后略作停顿,等Orabbix能够识别出删除配置的操作,然后重新添加即可。
Orabbix中会出现类似下面的信息,意味着这个删除配置已经被系统识别了。
2016-05-29 20:38:49,366 [main] WARN  Orabbix - Database stest2 removed from configuration file
2016-05-29 20:38:49,370 [main] WARN  Orabbix - Database stest2 conections closed
然后重新添加即可。
这样根本性的问题就解决了。
我们可以进一步思考,主备库的监控问题已经修复了。现在的问题是如果是在监控原来的备库,为什么备库会出现数据文件的状态为RECOVER?
在11g ADG的环境中,备库数据文件出现这种状态看起来还是有些奇怪,正常状态已经是AVAILABLE.
每天都会定时报警,提示数据文件状态为RECOVER,我们来看看那个时间段里会有什么样的操作,经过分析发现那个时间段附近有几个Scheduler Job运行失败,和TNS的配置有关,简单修复即可。
另外注意到一个问题,就是主备库存在延迟,这是一个11g的环境,出现这类问题实在是太不应该了。
使用verbose查看备库的信息,延迟还是有的。
DGMGRL> show database verbose stest3;
Database - stest3
  Role:            PHYSICAL STANDBY
  Intended State:  APPLY-ON
  Transport Lag:   15 minutes 28 seconds
  Apply Lag:       15 minutes 28 seconds
  Real Time Query: ON
  Instance(s):
    stest2
而且稍等一会,继续查看延迟就继续变大。
DGMGRL> DGMGRL> show database verbose stest3;
Database - stest3
  Role:            PHYSICAL STANDBY
  Intended State:  APPLY-ON
  Transport Lag:   48 minutes 30 seconds
  Apply Lag:       48 minutes 30 seconds
  Real Time Query: ON
  Instance(s):
    statdb2
而查看备库的状态为:
SQL> select open_mode from v$database;
OPEN_MODE
--------------------
READ ONLY WITH APPLY
由此可见,这也是一种误区,备库状态为open_mode为READ ONLY WITH APPLY,主备库还是可能出现较大的延迟。
而在备库排查了日志文件,也没有发现任何问题。这个时候问题就看起来陷入了僵局。
迅速在自己的知识库中进行搜索,这种不一致,如果排除了日志文件还有什么可能呢,时间可能是一个问题,在主备服务器段查看了系统时间,发现存在3分钟的一个误差,看起来问题就应该是如此了。
我使用ntpdate重新同步了时间之后,查看DG Broker还是显示延迟,这个时候不能慌乱,我们可以重新配置一些备库的信息,删除原来DG Broker的配置,重新添加备库即可。
查看主备延迟,这个时候就没有任何问题了。再过了许久,就没有出现此类问题。
DGMGRL> DGMGRL> show database verbose stest3;
Database - stest3
  Role:            PHYSICAL STANDBY
  Intended State:  APPLY-ON

  Transport Lag:   0 seconds
  Apply Lag:       0 seconds
  Real Time Query: ON
  Instance(s):
    stest2
看来今天不会再收到这类的报警信息了,感觉心里还是踏实了许多。

报警时间:2016.05.29-02:13:56
目录
相关文章
|
5月前
|
监控 安全 算法
uwb人员定位系统:人员轨迹实时定位
vuwb人员定位系统:人员轨迹实时定位
101 0
uwb人员定位系统:人员轨迹实时定位
|
5月前
|
监控 安全 5G
UWB人员精准定位系统源码,实现实时定位、人机料配对、物料标签配置、智慧调度、轨迹追踪
人员定位管理系统通过在厂区、车间部署UWB定位基站,实时采集人员、机具、物料上定位标签回传的位置信息数据,采用多维定位模式,精确定位人、机具、物料的实时位置,实现实时定位、人机料配对、物料标签配置、智慧调度、轨迹追踪、工时统计、区域物料统计、电子围栏等应用功能。
|
9月前
|
SQL 供应链 安全
【网络安全】护网系列-打点技术
【网络安全】护网系列-打点技术
499 0
|
10月前
|
传感器 存储 算法
物联网期末大作业—睡眠质量检测系统(精修版)
物联网期末大作业—睡眠质量检测系统(精修版)
|
传感器 算法 安全
四旋翼自主飞行器探测跟踪系统
四旋翼自主飞行器探测跟踪系统
152 0
四旋翼自主飞行器探测跟踪系统
|
传感器 编解码 监控
监测生命体征、活动水平的可穿戴电子产品设计方案
监测生命体征、活动水平的可穿戴电子产品设计方案
监测生命体征、活动水平的可穿戴电子产品设计方案
|
机器学习/深度学习 人工智能 监控
15秒预警 阿里云“消控宝” 打通消防“生命通道”
消防法规定,任何单位、个人不得占用、堵塞、封闭疏散通道、安全出口、消防通道;单位违反规定可处5000元以上5万元以下罚款。一旦发生火灾,消防车救援通道被堵,造成巨大的财务损失,人身安全也将受到威胁,消防管理责任人将承担沉重的法律责任。低成本、智能化的方式监管、解决消防通道占用问题是刚需!
255 0
15秒预警 阿里云“消控宝” 打通消防“生命通道”
Sooth打造新型智能头盔,通过传感器可实时检测各项身体指标
将多个嵌入式传感器和智能头盔相结合,配备一个集成的应用程序,以此来预测用户是否有中暑征兆。
257 0
引入安全驾驶员、安装监控摄像头……Waymo推额外安全措施
作为无人驾驶领域的领头者之一,Waymo对于这一技术的安全性也持“十分谨慎”的态度。
410 0