一次外网打不开网站的故障总结-阿里云开发者社区

开发者社区> 云计算> 正文

一次外网打不开网站的故障总结

简介:

   先说一下公司网站的架构,公司的前端用Keepalived+LVS做的负载均衡,后面跟的是WEB服务器,WEB和IMG独立,IMG采用NFS+存储服务器,IMG前端用Squid做的缓存。整个网站前面用的是金盾的防火墙,网站的整个架构并不复杂。

   在9月22日12:22收到故障短信报警,说整个站点不可用。此时用手机访问我们的网站,根本打不开,我火速赶往公司进行处理,下面是我总结解决问题的方法和思路。

   第一步:首先用curl/lsof等工具测试了后端WEB服务都是正常的,排除了WEB故障,在公司用浏览器打开网站也是OK的。

   第二步:想到的是不是DNS解析有问题(公司内部访问做了指向),让我的同学在其它地方做了测试,DNS解析正常,ping域名不通,首先排除的是DNS问题。然后让他traceroute一下,看线路是否畅通,到我们机柜上一级路由就找不到我们的VIP了。

160531184.jpg

   第三步:ping域名不通,是不是LVS VIP的问题,然后在Load Balancer用tail -f /var/log/messages查看日志,没有发现异常信息,用ip addr查看VIP也是绑定在eth0:2网卡上面的,然后在Load Balancer 用curl工具访问网站也是OK 的,说明LVS是正常的。

100154577.jpg

   第四步:DNS,WEB,LVS都正常,肯定是机房的金盾防火墙出了问题,然后查找防火墙的日志,发现防火墙在12:39重启过,可能是由于重启后策略问题导致访问不了我们的网站。

160657928.jpg

   第五步:为了节省时间,联系了金盾的技术支持,帮我们看了防火墙是不是有问题,发现有一个策略有问题(是屏蔽客户端所有ip的规则,没有查出来设置该规则的日期,可能是之前设置的策略在重启后生效了),删掉该策略一切OK。

160723810.jpg

   总结:当整个网站出现问题的时候首先和领导汇报网站出了问题,最好在第一时间能确定问题出现在哪里,然后看能不能及时解决,如果解决不了的先出临时解决方案,让整个网站让用户能访问。










本文转自 sfzhang 51CTO博客,原文链接:http://blog.51cto.com/sfzhang88/1301121,如需转载请自行联系原作者

版权声明:本文首发在云栖社区,遵循云栖社区版权声明:本文内容由互联网用户自发贡献,版权归用户作者所有,云栖社区不为本文内容承担相关法律责任。云栖社区已升级为阿里云开发者社区。如果您发现本文中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,阿里云开发者社区将协助删除涉嫌侵权内容。

分享:
云计算
使用钉钉扫一扫加入圈子
+ 订阅

时时分享云计算技术内容,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。

其他文章