线上故障快速定位及恢复(下)

简介: 线上故障快速定位及恢复(下)

Java线程堆栈


  • 一次线程堆栈信息

image.png

资源不足导致性能下降原因


大量线程停在同样的调用上下文中

原因

image.png


多个锁导致的锁链分析


很多线程在等待不同的锁 有的锁竞争可能由于另外一个锁对象竞争导致 需要找到根源

案例分析

image.png


WebAPI性能瓶颈


线上表现

1、连接阻塞比较多RECQ(接收的队列)
2、超时日志疯狂打印
3、通过重启webapi进程临时缓解压力


解决步骤


image.png



线上故障处理方式


  • 保留现场
比如通过jstack保存堆栈快照信息
  • 恢复服务
第一时间恢复服务 比如restart、reboot
  • 排查解决
  • 验证

常规操作

  • 重启
  • 回滚
  • 降级
  • 摘机


现象收集&故障定位

image.png

image.png

image.png

image.png

image.png

image.png

image.png


异常处理原则

错误永远无法避免 且发生的角度永远无法预期
在故障发生时尽可能维持系统核心功能的可用性
相关文章
|
SQL 监控 网络协议
线上故障如何快速排查?来看这套技巧大全
有哪些常见的线上故障?如何快速定位问题?本文详细总结工作中的经验,从服务器、Java应用、数据库、Redis、网络和业务六个层面分享线上故障排查的思路和技巧。较长,同学们可收藏后再看。
线上故障如何快速排查?来看这套技巧大全
|
3月前
|
运维 监控
线上故障的正确打开方式
线上故障的正确打开方式
31 0
|
11月前
|
运维 监控 Shell
磁盘占用高生产故障复盘总结
磁盘占用高生产故障复盘总结
194 0
|
监控 容灾 安全
系统总出故障怎么办?
系统总出故障怎么办?
|
缓存 JSON 运维
如何避免大规模线上故障
如何避免大规模线上故障
116 0
|
20天前
|
运维 监控 Java
线上故障突突突?如何紧急诊断、排查与恢复
本文简单介绍了阿里云上关于故障恢复、诊断的一些最佳实践。
线上故障突突突?如何紧急诊断、排查与恢复
|
NoSQL Java Redis
线上系统打日志你了解多少?
以上文章讲述的是【Redis入门知识点】接下来我总结一下【线上系统打如何正确打日志】。
|
Java Linux
线上故障快速定位及恢复(上)
线上故障快速定位及恢复(上)
190 0
线上故障快速定位及恢复(上)
|
监控
smartctl定位磁盘故障信息
​ Smartctl(S.M.A.R.T 自监控,分析和报告技术)是用于查看和检测磁盘硬件信息的工具,可以打印SMART自检和错误日志,启用并禁用SMRAT自动检测,以及初始化设备自检。服务器环境中,一般磁盘都是通过RAID卡挂载,如果配置了直通模式,则可以直接使用smartctl查询磁盘信息,如果非直通模式则需要调用raid卡对应接口才可以查询
20640 1