在软件系统的生命周期中,性能问题与故障是不可避免的。初级程序员面对问题时往往手足无措,只会“重启试试”;进阶程序员则具备一套系统化的方法论:从现象定位、根因分析、到解决方案设计,形成完整的故障排查与性能调优能力。
性能调优与故障排查不是玄学,而是基于扎实的基础知识、系统的排查工具、以及严谨的逻辑推理的科学过程。本文将围绕“性能调优与故障排查”这一核心主题,从故障排查方法论、CPU问题排查、内存问题排查、I/O问题排查、网络问题排查、数据库性能优化、应用性能分析工具、全链路压测、混沌工程、以及经典故障案例复盘十个维度,带你系统掌握这门关键的进阶技能。
一、故障排查的方法论
1.1 故障排查的核心原则
黄金法则:
1. 先恢复,后排查: 业务第一,止血优先
2. 保留现场: 日志、线程栈、堆内存、网络包
3. 一次只改一个变量: 避免引入新的不确定性
4. 奥卡姆剃刀: 最简单的解释往往是最可能的
5. 5 Whys分析法: 连续追问五次“为什么”找到根因
排查流程:
现象确认 → 信息收集 → 假设形成 → 验证假设 → 根因定位 → 解决方案 → 复盘改进
1.2 故障分级与响应
1.3 故障排查工具箱
# Linux 性能排查工具箱(USE方法)
# Utilization(利用率) + Saturation(饱和度) + Errors(错误)
# CPU
top, htop, pidstat, mpstat, perf
# 内存
free, vmstat, /proc/meminfo, pmap, jmap
# 磁盘I/O
iostat, iotop, dstat, blktrace
# 网络
netstat, ss, tcpdump, iftop, iperf
# 系统调用
strace, ltrace, perf trace
# Java专用
jps, jstack, jmap, jstat, jcmd, jconsole, VisualVM, MAT, Arthas
二、CPU问题排查
2.1 CPU问题分类
2.2 CPU飙升排查实战
# 1. 查看整体CPU情况
top -c
# 按P键按CPU排序,找到高CPU进程(PID)
# 2. 查看进程内线程CPU使用率
top -H -p <PID>
# 3. 将十进制线程ID转为十六进制(用于jstack)
printf "%x\n" <TID>
# 4. 打印线程堆栈(查看线程在做什么)
jstack <PID> | grep -A 20 <TID十六进制>
# 5. 使用Arthas实时监控
# 安装arthas
curl -O https://arthas.aliyun.com/arthas-boot.jar
java -jar arthas-boot.jar <PID>
# 查看最繁忙的线程
dashboard
# 查看线程CPU使用率
thread -n 5
# 查看指定线程堆栈
thread <TID>
# 实时监控方法耗时
trace com.example.service.OrderService findById
# 监控方法调用次数和成功率
monitor -c 5 com.example.service.OrderService findById
2.3 死循环排查
// 问题代码示例
public class InfiniteLoopDemo {
private boolean flag = true;
// 业务线程
public void businessMethod() {
// 常见问题:while循环缺少退出条件
while (flag) {
// 死循环,CPU 100%
doSomething();
}
}
// 排查方法
// 1. jstack找出线程状态为RUNNABLE的线程
// 2. 查看堆栈定位到具体代码行
// 3. 检查循环条件是否永远不会变成false
}
# jstack输出分析
"worker-thread-1" #12 prio=5 os_prio=0 tid=0x00007f8a9c001000 nid=0x5a2e runnable [0x00007f8a6caf7000]
java.lang.Thread.State: RUNNABLE
at com.example.service.InfiniteLoopDemo.businessMethod(InfiniteLoopDemo.java:25)
- locked <0x00000000d5c0a8a0> (a java.lang.Object)
at com.example.service.OrderService.process(OrderService.java:108)
at sun.misc.Unsafe.park(Native Method)
# 定位:第25行是while循环的doSomething()调用
2.4 正则表达式灾难性回溯
// 问题:正则表达式导致CPU飙升
public class RegexCatastrophicBacktracking {
// 问题正则:嵌套的量词导致指数级回溯
// 目标字符串: "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaX"
private static final Pattern BAD_PATTERN = Pattern.compile("(a+)+b");
// 好的正则:使用原子组或改写
private static final Pattern GOOD_PATTERN = Pattern.compile("a++b"); // 占有量词
public static void dangerousMatch(String input) {
long start = System.currentTimeMillis();
boolean matches = BAD_PATTERN.matcher(input).matches();
long duration = System.currentTimeMillis() - start;
System.out.println("耗时: " + duration + "ms");
// 输入40个a+1个X,耗时可能超过10秒
}
// 排查方法
// 1. jstack发现正则匹配的线程一直处于RUNNABLE
// 2. 使用Arthas的monitor或trace跟踪方法耗时
// 3. 使用re2j或改写正则
}
2.5 上下文切换过高
# 查看上下文切换
vmstat 1
# cs列表示上下文切换次数
# 如果cs > 10000,说明切换频繁
# 查看具体哪个进程导致
pidstat -w 1
# 查看线程自愿切换和非自愿切换
pidstat -w -t -p <PID> 1
# 常见原因:
# 1. 锁竞争激烈(非自愿切换高)
# 2. 线程数过多(线程调度开销)
# 3. 频繁的sleep/wakeup(自愿切换高)