继续向大家汇报阿里云上的天气变化情况。5月8日上午糟糕的天气(8:30~9:50,10:50~11:40)给大家逛园带来了很大的麻烦,请谅解!
早上8:30左右由于阿里云RDS出现突发故障(故障是RDS负载均衡引起的),造成网站不能正常访问,访问时出现了
504 Gateway Time-out错误。
8:45左右RDS恢复正常,但由于RDS故障恢复时进行了HA切换(数据库热备切换),数据库访问切换到了另外一台热备服务器上,而这台SQL Server服务器需要一段时间进行预热(建立缓存)。
在预热期间由于SQL缓存命中率低,大量的磁盘IO造成很多SQL查询执行时间很长,引起网站访问速度变得很慢。当时正在值访问高峰期,SQL Server一边要进行预热,一边要处理大量的查询请求,这种雪上加霜的情形让SQL Server迟迟不能进入正常工作状态。后来通过增加RDS内存提高SQL Server缓存命中率之后才解决问题。
这种情况我们是第一次遇到,以前用自己的服务器,即使服务器重启,起来之后SQL Server很快就能进入正常工作状态。可能是因为现在的数据库压力比以前大了很多。
这次故障说明了即使数据库服务器有热备,但切换到热备服务器也不能保证短时间内恢复正常。
这次故障说明了缓存是多么多么的重要,因为在热备服务器预热阶段,唯一能减轻SQL Server负担的就是缓存,虽然我们最近对缓存进行了很大的优化,但还远远不够。
这次故障说明了阿里云需要进一步提高RDS的稳定性。云计算,稳定大于一切!
出了这么多问题,很多朋友在质疑我们为什么还坚守在阿里云上?
我们考虑过很多次,支撑我们坚守的理由有:
-------------------------
-------------------------
-------------------------
-------------------------
-------------------------
-------------------------
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。