一次支付平台紧急故障处理备忘-阿里云开发者社区

一次支付平台紧急故障处理备忘

2017-11-02 1583

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介：

一次支付平台紧急故障处理备忘

作者：田逸（sery@163.com）

监控没报警直接收到故障电话，说业务全部挂了。时间紧迫，需要快速解决。

根据拓扑结构，顺序进行如下操作：

◎检查负载均衡器

负载均衡器安装keepalived+ haproxy，先从监控界面检查运行状态，其输出如下图所示

由图可知，还有一个应用处于正常状态，因此可以大致判定负载均衡应该是正常的。

◎检查应用服务器

应用服务器由4个服务器组成2组独立的集群，每组服务器安装的软件和配置完全一样。因此，每组服务器只需要检查其中的一个服务器就可以了。登录系统，检查如下项目：

1、检查进程，查看tomcat是否还在运行，执行指令ps auxww | grep java ，两个java进程运行得好好的呢！

2、检查网络状态，分别执行netstat –anp | grep EST ，也看不出有什么异常。

3、检查tomcat日志，发现一段可疑输出，片段截取如下：

Could not open JDBC Connection for transaction; nested exception is java.sql.SQLException: An attempt by a client to checkout a Connection has timed out.

问了其他技术人员，回答说今天没有做任何程序方面的修改，由此可以简单断定，可能是数据库出了问题。顺手在应用服务上测试一下数据库服务器的网络联通性，执行命令ping 172.16.5.40,正常；再执行 telnet 172.16.5.41 1521 有正常的输出，这可以确定数据库的监听也是启动的。注意：oracle rac监听地址是安装过程中设定的vip，而不是实际物理接口地址，这就是什么啥ping的地址是172.16.5.40，而telnet 跟的地址是172.16.5.41的原因。

4、重启一下tomcat，故障依旧。

5、检查系统日志，无可以信息发现。

6、直接在浏览器输入应用服务器的可访问url，异常。

◎检查数据库服务器

◆系统方面的检查

1、检查oracle相关进程，ps aux ，其输出片段为

一次支付平台紧急故障处理备忘

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

一次支付平台紧急故障处理备忘

热门文章

最新文章

相关电子书