Oracle运维之由杀毒软件造成的数据库无法连接

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: Oracle运维之由杀毒软件造成的数据库无法连接

7月19日15点20分左右,客户反应业务无法连接数据库,到15点30左右时,业务可以正常连接数据库。在20分到30分之间没有做任何操作。

故障分析

数据库告警日志在15点21分报错,在29分之后没有发现ORA-00445。

Sat Jul 18 15:21:11 2020
Errors in file /oracle/app/diag/rdbms/orcl/orcl1/trace/orcl1_cjq0_15129.trc (incident=224489):
ORA-00445: background process "J000" did not start after 120 seconds
……
Sat Jul 18 15:29:25 2020
Errors in file /oracle/app/diag/rdbms/orcl/orcl1/trace/orcl1_qmnc_15048.trc (incident=224433):
ORA-00445: background process "q001" did not start after 120 seconds
ORA-00445错误指的是oracle无法在操作系统层面生成新的进程来为新的请求服务,或者是现有进程已经僵死。通常来讲,这个错误发生在系统资源短缺或者系统资源参数配置错误等,应该从操作系统层面来分析。

从orcl1_cjq0_15129.trc中可以看出,当时的内存使用正常,有充足的空余。

* 2020-07-18 15:19:06.074
loadavg : 65.00 22.26 8.73
Memory (Avail / Total) = 72904.64M / 128946.45M
Swap (Avail / Total) = 32768.00M / 32768.00M
skgpgcmdout: read() for cmd /bin/ps -elf | /bin/egrep 'PID | 68878' | /bin/grep -v grep timed out after >15.000 seconds

集群会定时检查集群资源的健康状况,在15点18分时发现大量的异常,31分后恢复正常。

2020-07-18 15:18:23.883
[/oracle/grid/bin/oraagent.bin(18771)]CRS-5818:Aborted command 'check' for resource >'ora.LISTENER.lsnr'. Details at (:CRSAGF00113:) {1:42006:2} in /oracle/grid/log/lsfby01/agent/crsd/oraagent_grid/oraagent_grid.log.
2020-07-18 15:18:43.914
[/oracle/grid/bin/oraagent.bin(18771)]CRS-5818:Aborted command 'check' for resource 'ora.ons'. Details at (:CRSAGF00113:) {1:42006:2} in /oracle/grid/log/lsfby01/agent/crsd/oraagent_grid/oraagent_grid.log.
2020-07-18 15:18:53.953
[/oracle/grid/bin/oraagent.bin(18771)]CRS-5014:Agent "/oracle/grid/bin/oraagent.bin" timed out starting process "/oracle/grid/bin/lsnrctl" for action "check": details at "(:CLSN00009:)" in "/oracle/grid/log/lsfby01/agent/crsd/oraagent_grid/oraagent_grid.log"
……
[/oracle/grid/bin/oraagent.bin(18771)]CRS-5822:Agent '/oracle/grid/bin/oraagent_grid' disconnected from server. Details at (:CRSAGF00117:) {0:2:39} in /oracle/grid/log/lsfby01/agent/crsd/oraagent_grid/oraagent_grid.log.
2020-07-18 15:30:07.480
[/oracle/grid/bin/orarootagent.bin(18778)]CRS-5822:Agent '/oracle/grid/bin/orarootagent_root' disconnected from server. Details at (:CRSAGF00117:) {0:3:21264} in /oracle/grid/log/lsfby01/agent/crsd/orarootagent_root/orarootagent_root.log.
2020-07-18 15:30:07.480
[/oracle/grid/bin/oraagent.bin(18800)]CRS-5822:Agent '/oracle/grid/bin/oraagent_oracle' disconnected from server. Details at (:CRSAGF00117:) {0:4:72} in /oracle/grid/log/lsfby01/agent/crsd/oraagent_oracle/oraagent_oracle.log.
2020-07-18 15:31:17.399
[crsd(69518)]CRS-1012:The OCR service started on node lsfby01.
2020-07-18 15:31:17.846
[crsd(69518)]CRS-1201:CRSD started on node lsfby01.

在ASM告警日志中也同样发现ORA-00445错误。

Sat Jul 18 15:22:12 2020
Errors in file /oracle/app/diag/asm/+asm/+ASM1/trace/+ASM1_mmon_13816.trc (incident=181601):
ORA-00445: background process "m000" did not start after 120 seconds

考虑到有可能是集群的心跳异常,导致了集群踢掉了一节点,进而导致业务无法连接。但是在查看ocssd日志后,没有发现心跳问题。
在15日的时候,双节点已经部署osw,在查看osw的oswtop、oswmeminfo和oswprvtnet发现了异常的地方。Osw设置的是5s采集一次信息,但是大概在17分到28分之间却没有任何记录,从这点可以大致推论出是操作系统出现了问题。
从操作系统日志中发现,在17分时出现异常,直到31分钟才结束,正好覆盖了数据库无法连接的时间。

Jul 18 15:17:27 lsfby01 kernel: scand[18500]: segfault at 7f194a664000 ip 00007f1952d95a68 sp 00007f19148950d8 error 4 in modmap.yeIQ3s (deleted)[7f1952d7b000+1c000]
Jul 18 15:17:37 lsfby01 kernel: eset_rtp: wait for scanner reply timeout, path: /tmp/.nstat.u0, event: OPEN, pid: 68854
Jul 18 15:17:37 lsfby01 kernel: eset_rtp: wait for scanner reply timeout, path: /etc/ld.so.cache, event: OPEN, pid: 68858
Jul 18 15:17:37 lsfby01 kernel: eset_rtp: wait for scanner reply timeout, path: /etc/ld.so.cache, event: OPEN, pid: 68857
……
Jul 18 15:31:09 lsfby01 kernel: eset_rtp: wait for scanner reply timeout, path: /usr/share/augeas/lenses/libreport.aug, event: OPEN, pid: 11371
Jul 18 15:31:09 lsfby01 kernel: eset_rtp: wait for scanner reply timeout, path: /usr/lib64/gconv/gconv-modules.cache, event: OPEN, pid: 69467
Jul 18 15:31:10 lsfby01 abrtd: Directory 'ccpp-2020-07-18-15:26:08-18407' creation detected
Jul 18 15:31:11 lsfby01 abrtd: Package 'efs' isn't signed with proper key
Jul 18 15:31:11 lsfby01 abrtd: 'post-create' on '/var/spool/abrt/ccpp-2020-07-18-15:26:08-18407' exited with 1
Jul 18 15:31:11 lsfby01 abrtd: Deleting problem directory '/var/spool/abrt/ccpp-2020-07-18-15:26:08-18407'

在与客户沟通后,确认服务器上安装了杀毒软件,至此可以推断出是由于杀毒软件造成的问题。

总结

从这次故障可以看出,在分析问题时,如果从数据库层面遇到了瓶颈,无法定位问题,那么不妨从操作系统层面上来分析,通过分析日志和osw采集日志,往往会有奇效。

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
3天前
|
关系型数据库 MySQL 网络安全
如何排查和解决PHP连接数据库MYSQL失败写锁的问题
通过本文的介绍,您可以系统地了解如何排查和解决PHP连接MySQL数据库失败及写锁问题。通过检查配置、确保服务启动、调整防火墙设置和用户权限,以及识别和解决长时间运行的事务和死锁问题,可以有效地保障应用的稳定运行。
47 25
|
11天前
|
关系型数据库 MySQL 数据库连接
Unity连接Mysql数据库 增 删 改 查
在 Unity 中连接 MySQL 数据库,需使用 MySQL Connector/NET 作为数据库连接驱动,通过提供服务器地址、端口、用户名和密码等信息建立 TCP/IP 连接。代码示例展示了如何创建连接对象并执行增删改查操作,确保数据交互的实现。测试代码中,通过 `MySqlConnection` 类连接数据库,并使用 `MySqlCommand` 执行 SQL 语句,实现数据的查询、插入、删除和更新功能。
|
26天前
|
关系型数据库 MySQL 数据库连接
数据库连接工具连接mysql提示:“Host ‘172.23.0.1‘ is not allowed to connect to this MySQL server“
docker-compose部署mysql8服务后,连接时提示不允许连接问题解决
|
30天前
|
前端开发 Java 数据库连接
Java后端开发-使用springboot进行Mybatis连接数据库步骤
本文介绍了使用Java和IDEA进行数据库操作的详细步骤,涵盖从数据库准备到测试类编写及运行的全过程。主要内容包括: 1. **数据库准备**:创建数据库和表。 2. **查询数据库**:验证数据库是否可用。 3. **IDEA代码配置**:构建实体类并配置数据库连接。 4. **测试类编写**:编写并运行测试类以确保一切正常。
56 2
|
1月前
|
安全 网络安全 数据库
Access denied for user ‘qingtingstpublic’@’171.213.253.88’ (using password: YES)宝塔数据库远程无法连接-宝塔数据远程无法连接的正确解决方案-优雅草央千澈-问题解决
Access denied for user ‘qingtingstpublic’@’171.213.253.88’ (using password: YES)宝塔数据库远程无法连接-宝塔数据远程无法连接的正确解决方案-优雅草央千澈-问题解决
47 28
|
2月前
|
SQL 存储 运维
从建模到运维:联犀如何完美融入时序数据库 TDengine 实现物联网数据流畅管理
本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品。文章从一个具体的业务场景出发,分析了企业在面对海量时序数据时的挑战,并提出了利用 TDengine 高效处理和存储数据的方法,帮助企业解决在数据采集、存储、分析等方面的痛点。通过这篇文章,作者不仅展示了自己对数据处理技术的理解,还进一步阐释了时序数据库在行业中的潜力与应用价值,为读者提供了很多实际的操作思路和技术选型的参考。
56 1
|
2月前
|
运维 监控 Cloud Native
云原生之运维监控实践:使用 taosKeeper 与 TDinsight 实现对 时序数据库TDengine 服务的监测告警
在数字化转型的过程中,监控与告警功能的优化对保障系统的稳定运行至关重要。本篇文章是“2024,我想和 TDengine 谈谈”征文活动的三等奖作品之一,详细介绍了如何利用 TDengine、taosKeeper 和 TDinsight 实现对 TDengine 服务的状态监控与告警功能。作者通过容器化安装 TDengine 和 Grafana,演示了如何配置 Grafana 数据源、导入 TDinsight 仪表板、以及如何设置告警规则和通知策略。欢迎大家阅读。
68 0
|
2月前
|
机器学习/深度学习 存储 运维
深度学习在数据库运维中的作用与实现
深度学习在数据库运维中的作用与实现
83 14
|
2月前
|
存储 Oracle 关系型数据库
数据库数据恢复—ORACLE常见故障的数据恢复方案
Oracle数据库常见故障表现: 1、ORACLE数据库无法启动或无法正常工作。 2、ORACLE ASM存储破坏。 3、ORACLE数据文件丢失。 4、ORACLE数据文件部分损坏。 5、ORACLE DUMP文件损坏。
146 11
|
2月前
|
存储 Oracle 关系型数据库
服务器数据恢复—华为S5300存储Oracle数据库恢复案例
服务器存储数据恢复环境: 华为S5300存储中有12块FC硬盘,其中11块硬盘作为数据盘组建了一组RAID5阵列,剩下的1块硬盘作为热备盘使用。基于RAID的LUN分配给linux操作系统使用,存放的数据主要是Oracle数据库。 服务器存储故障: RAID5阵列中1块硬盘出现故障离线,热备盘自动激活开始同步数据,在同步数据的过程中又一块硬盘离线,RAID5阵列瘫痪,上层LUN无法使用。

热门文章

最新文章

推荐镜像

更多