目前的数据库巡检,主要依赖袋鼠云自研管控平台EasyDB,它可以提供完善的数据库和主机性能/资源信息,并且配备有短信、钉钉、电话等告警;可接入本地或云上实例;注册SaaS版可以体验所有功能,不收取费用 https://easydb.dtstack.com
(一)
在某天巡检客户的实例时,发现AWR报告已经中断一段时间
但是其他实例均正常
首先排除EasyDB本身故障导致的问题
(二)
接下来使用运维账户登陆到数据库服务器,查看AWR是否真的没有收集
事实却是在19-03-10 6:00 之后就没有收集AWR
(三)
查看告警日志,发现在当天6:00发生一次内部错误 ora-07445导致mmon进程异常
(四)
查看进程,服务器上部署两个实例,但是只有一个mmon进程
(五)
mmon是一个管理监控进程,不影响实例运行,但是AWR报告不会再收集;11G在一般情况下,mmon进程会自动重启
2019-03-26T10:55:02.526294+08:00
Restarting dead background process MMON
Starting background process MMON
2019-03-26T10:55:02.664864+08:00
MMON started with pid=51, OS id=23218
现在这个情况就比较特殊,是因内部错误引起,那就需要人为重启:
1:重启实例
2:ALTER SYSTEM enable restricted session;
ALTER SYSTEM disable restricted session;
第1个方法影响较多,还是建议在业务空闲期间,选用方法2,快速在数据库中执行这两条SQL
(六)
数据库的操作先提请邮件审核,通过之后再做执行