千奇百怪的数据库故障

简介:

昨天阿里云在运维上出现了严重的事故,引发文件删除,让我想起这篇文章,补充再发出来。总有很多情形,你无法想象,数据库的故障遭遇也是如此。


如果没有完善的流程、规范,并且进行规范化的审核,那么什么故障都可能发生,人、流程和工具,必须要互相匹配,完美结合才能发挥最佳效应,而运维就是要疯狂躲避各种坑。


分享几则我们遇到过的客户恢复故障,与大家共为警醒,注意这些都是真实的案例:

  1. 服务器找不到了

    某次客户找我们恢复数据库,说某个数据库出现故障,原本以为不再需要了,现在还需要其中的数据,可能是时间太久远了,工程师到现场后,客户说服务器找不到了,就算了。

    三个月后,客户来电说,服务器找到了,我们又去帮用户恢复了数据。

  2. 服务器搬走了

    某次客户数据库故障,检查发现,是RAC的某个节点服务器被搬走了,以为不用了,郁闷的是,断电还导致了ASM磁盘头损坏,还好11g修复ASM磁盘头很简单,迅速帮助用户恢复了数据库运行,再搬回服务器,加入节点。

  3. 磁盘搬走了

    也是今年的某个客户,新上线服务器,客户找了一块以为不用的磁盘,强制拉过来格式化,发现另外一个业务库应声倒下了。

  4. DBA走了

    最近提到过的一个客户,因为把DBA解雇掉了,结果,DBA偷偷上来把整个库给删除掉了,业务挂了很久很久。

  5. 网线拔了

    这是2015的案例,在业务高峰,新上一个交换机,网络运维把生产数据库的网线拔了,影响业务10分钟。这是金融业务,据说客户的人都跑到机房,机房满员。

  6. 磁盘故障

    这也是2015年的新案例,客户的存储工程师划分给数据库ASM的磁盘小于请求容量,数据库文件扩展时越界产生了故障。这是队友埋的坑。


同志们,Oracle是坚强的,但是数据安全是脆弱的,警惕随时可能发生的故障,不断强化数据安全,加强运维规范化,如何都不为过。


本文出自数据和云公众号,原文链接


相关文章
|
8月前
|
Kubernetes 关系型数据库 MySQL
ChaosBlade常见问题之数据库进行故障注入报错ibdata1文件异常如何解决
ChaosBlade 是一个开源的混沌工程实验工具,旨在通过模拟各种常见的硬件、软件、网络、应用等故障,帮助开发者在测试环境中验证系统的容错和自动恢复能力。以下是关于ChaosBlade的一些常见问题合集:
202 1
|
1月前
|
存储 Oracle 关系型数据库
数据库数据恢复—ORACLE常见故障的数据恢复方案
Oracle数据库常见故障表现: 1、ORACLE数据库无法启动或无法正常工作。 2、ORACLE ASM存储破坏。 3、ORACLE数据文件丢失。 4、ORACLE数据文件部分损坏。 5、ORACLE DUMP文件损坏。
122 11
|
6月前
|
SQL druid Java
线程池相关故障问题之Druid数据库连接池中,为何需要设置TransactionTimeout
线程池相关故障问题之Druid数据库连接池中,为何需要设置TransactionTimeout
195 0
|
3月前
|
存储 Oracle 关系型数据库
数据库数据恢复—Oracle ASM磁盘组故障数据恢复案例
Oracle数据库数据恢复环境&故障: Oracle ASM磁盘组由4块磁盘组成。Oracle ASM磁盘组掉线 ,ASM实例不能mount。 Oracle数据库故障分析&恢复方案: 数据库数据恢复工程师对组成ASM磁盘组的磁盘进行分析。对ASM元数据进行分析发现ASM存储元数据损坏,导致磁盘组无法挂载。
|
4月前
|
存储 数据挖掘 数据库
服务器数据恢复—raid磁盘故障导致数据库数据损坏的数据恢复案例
存储中有一组由3块SAS硬盘组建的raid。上层win server操作系统层面划分了3个分区,数据库存放在D分区,备份存放在E分区。 RAID中一块硬盘的指示灯亮红色,D分区无法识别;E分区可识别,但是拷贝文件报错。管理员重启服务器,导致离线的硬盘上线开始同步数据,同步还没有完成就直接强制关机了,之后就没有动过服务器。
|
5月前
|
存储 Oracle 安全
服务器数据恢复—Raid故障导致数据库数据丢失的数据恢复案例
一台光纤存储中有一组由16块硬盘组成的raid。 该存储出现故障导致数据丢失。RAID中2块盘掉线,还有1块盘smart状态为“警告”。
|
5月前
|
数据库
【计算机三级数据库技术】第11章 数据库的故障管理--附思维导图
文章概述了数据库故障类型及其解决办法、数据库恢复技术、数据转储、日志文件的使用与格式、硬件容错方案(包括RAID技术和服务器容错技术)、以及数据库镜像与容灭策略。
82 2
|
6月前
|
Oracle 关系型数据库 数据库
关系型数据库Oracle 故障转移能力
【7月更文挑战第10天】
76 2
|
7月前
|
SQL 关系型数据库 MySQL
使用mysql数据库的binlog应对故障
【6月更文挑战第1天】本文介绍`mysql的 binlog`工具用于解析MySQL的二进制日志,转换为可执行的SQL语句,主要用于数据库主从复制和增量恢复。定期备份和binlog推送能实现故障时的数据恢复。
320 9
使用mysql数据库的binlog应对故障
|
8月前
|
SQL 数据库
数据库数据恢复—sqlserver数据库分区空间不足导致故障的数据恢复案例
数据库数据恢复环境: 某品牌r520服务器,服务器中有7块SAS硬盘,这7块硬盘组建了一组2盘raid1阵列和一组5盘raid5阵列,raid1阵列存储空间安装操作系统,raid5阵列存储空间存放数据。服务器上部署sql server数据库,数据库存放在C盘。 数据库故障: 工作人员发现服务器的C盘容量即将耗尽,于是将sql server数据库路径指向D盘,在D盘生成了一个.ndf文件。一个多星期后,sql server数据库出现故障,连接失效,无法正常附加查询。
数据库数据恢复—sqlserver数据库分区空间不足导致故障的数据恢复案例