当然公司层面也有一些巡检要求,我自己也总结了一下,发现还是需要写一部分,然后不断完善。主要分为下面的几个部分来阐述。
检查ILO可用性和使用情况
如果拥有对服务器资源的管理权限,对于ILO还是要验证一下,大体有几种情况。
ILO模块没有开启
这个可以联系系统组的同学帮你开启,也可以参考下面的步骤。
# modprobe ipmi_watchdog
# modprobe ipmi_poweroff
# modprobe ipmi_devintf
# chkconfig ipmi on
ILO密码错误
可以使用下面的命令来重置密码
/usr/bin/ipmitool user set password 2 'xunjian'
ILO超过最大用户连接数限制
如果用户名,密码正确,如果上一次登录没有正常退出,可能会有下面的报错。
RAC0218:已达到用户会话的最大数
这个时候可以重启ILO来达到目标。
ipmitool mc reset cold,这个过程会持续几分钟。
ILO在不同的硬件产品版本和浏览器的兼容性
ILO在不同的硬件产品版本中浏览器也有一些使用差异,有些版本使用IE低版本可以,有些可以使用chrome,firefox,有些则不适用。
ILO页面和JAVA的版本关系
这两点比较微妙,但是在实际中碰到问题的时候更多,特别是对于Java,如果查看新版本的硬件,JAVA8是不推荐的,因为安全策略太高,手工还修改不了这个设置,得用JAVA7及以下的版本了。
操作系统版本
操作系统的版本也需要提前规划,如果有些服务的版本过旧,需要考虑升级到一个较新的稳定版本,目前来看6U5还是值得推荐。在redhat5及以下的版本,碰到了不少的小问题。
操作系统内核参数
操作系统内核参数可以作为一个重要的检查项,当然对于主库而言可能重启不现实,但是提前准备好,在下次重启的时候能够省事省力,对于备库而言,也可以提早准备。
检查操作系统防火墙情况
对于操作系统中的防火墙设定最好能够提供完整的备份,到时候可以在灾备切换的时候用到。
如果存在特殊的网络设置情况,需要提前标注,要不帮你处理问题的同事会踩到一大坑。
系统文件权限
对于部分文件,需要考虑文件的权限,保证不会恶意篡改。比如设定这些关键文件和配置文件的只读权限,比如/etc/passwd,/etc/shadow,/etc/group等等
swap使用情况
swap的监控还是比较重要,对于Oracle来说,还是大SGA建议开启大页,要不swap争用较高,如果剩余内存不足,很容易触发oom-killer
文件的分区和规划情况
对于文件的分区和使用情况也需要格外关注,对于一些过旧的历史文件可以压缩或者删除。是否还在使用很陈旧的文件系统。
硬盘坏块和硬盘问题
硬盘坏块和硬盘问题还是很重要,只是硬盘没问题,哪怕其它的硬件问题规避不了,数据至少还是没问题的。
查看crontab的执行情况
查看例行的执行任务是否正常,比较尴尬的是crontab运行了,但是什么都没有干,比如删除归档,发现一直在扫描一个空目录,而真正的归档目录已经快撑爆了。
备份保留情况,是否有异机备份
这个需要结合目前的系统使用情况,如果数据库是非归档,测试环境,可以考虑异机备份。对于一些关键业务,在有灾备的情况下,也可以额外增加部分的逻辑备份。