开发者社区> 问答> 正文

RDS故障分析,请阿里云给予解释

1. 事件经过描述
2016年5月27日7时许,研发人员接到前方反映两家用户的系统运行有问题——用户正常登录后,画面操作没反映。
初步怀疑是应用系统故障,但后来发现主数据库实例有报警,并且多家系统运行缓慢。据此,基本确认RDS实例存在问题。
研发人员按如下方式进行了处理。
第一次:8:30左右对RDS实例进行了重启。但重启后故障仍未消失。
第二次:停止全部Tomcat应用,之后分步有序重启。但故障现象仍重复。
第三次:停止全部Tomcat应用,于9:00左右,再次重启RDS实例。只启动少数几家(五六家)的Tomcat应用。但故障仍未解决。
经过上述处理,在仍无法解决故障的情况在,决定对RDS实例上的数据库进行迁移,并逐步恢复迁移出的应用。
至17:00左右,共从原RDS实例上迁移出22家应用的数据库到新购买的2个RDS实例上,全部Tomcat应用恢复运行完毕。



2.故障原因分析
本次宕机事故,可初步判定由原RDS实例故障引起。判断依据如下:
1.反复重启后,并且在只启动少数应用的情况下,故障仍未恢复。
2.数据库在02:00至11:00左右的异常表现。


2.1    数据库连接数异常

从上述两图中可以看出,在02:00时左右,连接数突然变为零。并从零开始出现一个明显的波峰。该波峰在图“最近7日情况”中极其明显。日常应用基本保存持在200左右,但从02:00至09:00之前,数据库连接持继保持在600左右。
2.2    数据库缓存异常




从上述几张图中可以发现:
1.2016年5月27日前,数据库缓存情况正常。
2.从2016年5月27日02:00开始,缓存出现异常。
分析与此同时间段的缓存申请情况,与其它时间段并无异常。


2.3    IOPS及磁盘空间异常增高
  

从“7日IOPS情况”图中分析,至2016年5月27日前,IOPS基本正常,维持在一个水平线上。但从5月27日02:00开始,IOPS出现一个异常明显突起。

通过查阅报警信息,在02:29:46秒时,第一次出table full信息,持续到08:50左右。


分析磁盘空间情况,在同时出现IOPS升高与table full报警的同时,磁盘空间使用量突然增高。

2.4 与异常现象相伴随的正常现象
2.4.1 临时表无异常

图中临时表数量在11:00-16:00出现增多,但此时数据库未报table full之类的异常。此时,研发人员正在做数据导出迁移工作。在出现异常的主要时间段内(二时至八时)并未发现异常增量。

2.4.2 网络流量正常

12:00左右的波峰出现与大量数据导出相符合。异常时间段内的网络情况与其它日期内的并无明显区别。

2.4.3 数据操作量正常

分析上图,可以认为在故障时间段内,数据的查询与插入操作量无明显增加。无论如何,以故障时间段内,数据的操作并不是最多的。
3.    故障发生前的可疑情况

故障发生前的2016年5月26日 20:30左右。研发人员发现如上图未曾见过的情况:故障RDS实例正在升降级中。  咨询阿里,说是对RDS进行维护。


3. 分析结论
2016年5月27日发生的宕机事件,应是由RDS实例异常引起。综合上述分析,很有可能是由于磁盘空间胀死导致。
在异常时间段内,通过分析数据操作、临时表及网络流量情况,应与应用无关。
同时,最值得关注的时间点是02:00。在这个时间点有如下二点值得关注:
1.数据库连接数突然变为零。(应用是不可能的,有druid连接池,有30s/sec的服务请求)
2.缓存突然出现异常,MyISAM KeyBuffer出现断崖式下降。
上述分析,仅基于可获取的公开数据。具体RDS实例故障的深层次原因,请阿里云坦诚布公,给出更有深度的分析报告!



展开
收起
长天秋水 2016-05-28 09:48:53 11212 0
3 条回答
写回答
取消 提交回答
  • ReRDS故障分析,请阿里云给予解释
    同求!!!
    2018-01-26 15:15:36
    赞同 展开评论 打赏
  • ReRDS故障分析,请阿里云给予解释
    2017-12-22 11:47:11
    赞同 展开评论 打赏
  • ReRDS故障分析,请阿里云给予解释
    请阿里云公示具体原因,我们早上8:00-9:45出现获取不到数据库的连接,现象跟此贴97%类似
    2016-06-22 10:22:17
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
云原生产业大会:阿里云精彩内容集锦 立即下载
阿里云云原生 Serverless 技术实践营 PPT 演讲 立即下载
阿里云产品十月刊 立即下载

相关镜像