程序员必备的十大技能(进阶版)之性能调优与故障排查(一)

简介: 教程来源 https://qeext.cn/ 本文系统讲解性能调优与故障排查核心技能,涵盖故障方法论、CPU/内存/I/O/网络/数据库问题定位、Java诊断工具(Arthas/JVM)、全链路压测及混沌工程,辅以实战案例与黄金排查原则,助开发者从“重启党”进阶为问题终结者。

在软件系统的生命周期中,性能问题与故障是不可避免的。初级程序员面对问题时往往手足无措,只会“重启试试”;进阶程序员则具备一套系统化的方法论:从现象定位、根因分析、到解决方案设计,形成完整的故障排查与性能调优能力。

性能调优与故障排查不是玄学,而是基于扎实的基础知识、系统的排查工具、以及严谨的逻辑推理的科学过程。本文将围绕“性能调优与故障排查”这一核心主题,从故障排查方法论、CPU问题排查、内存问题排查、I/O问题排查、网络问题排查、数据库性能优化、应用性能分析工具、全链路压测、混沌工程、以及经典故障案例复盘十个维度,带你系统掌握这门关键的进阶技能。

一、故障排查的方法论

1.1 故障排查的核心原则

黄金法则:
  1. 先恢复,后排查: 业务第一,止血优先
  2. 保留现场: 日志、线程栈、堆内存、网络包
  3. 一次只改一个变量: 避免引入新的不确定性
  4. 奥卡姆剃刀: 最简单的解释往往是最可能的
  5. 5 Whys分析法: 连续追问五次“为什么”找到根因

排查流程:
  现象确认 → 信息收集 → 假设形成 → 验证假设 → 根因定位 → 解决方案 → 复盘改进

1.2 故障分级与响应
image.png
1.3 故障排查工具箱

# Linux 性能排查工具箱(USE方法)
# Utilization(利用率) + Saturation(饱和度) + Errors(错误)

# CPU
top, htop, pidstat, mpstat, perf

# 内存
free, vmstat, /proc/meminfo, pmap, jmap

# 磁盘I/O
iostat, iotop, dstat, blktrace

# 网络
netstat, ss, tcpdump, iftop, iperf

# 系统调用
strace, ltrace, perf trace

# Java专用
jps, jstack, jmap, jstat, jcmd, jconsole, VisualVM, MAT, Arthas

二、CPU问题排查

2.1 CPU问题分类
image.png
2.2 CPU飙升排查实战

# 1. 查看整体CPU情况
top -c
# 按P键按CPU排序,找到高CPU进程(PID)

# 2. 查看进程内线程CPU使用率
top -H -p <PID>

# 3. 将十进制线程ID转为十六进制(用于jstack)
printf "%x\n" <TID>

# 4. 打印线程堆栈(查看线程在做什么)
jstack <PID> | grep -A 20 <TID十六进制>

# 5. 使用Arthas实时监控
# 安装arthas
curl -O https://arthas.aliyun.com/arthas-boot.jar
java -jar arthas-boot.jar <PID>

# 查看最繁忙的线程
dashboard

# 查看线程CPU使用率
thread -n 5

# 查看指定线程堆栈
thread <TID>

# 实时监控方法耗时
trace com.example.service.OrderService findById

# 监控方法调用次数和成功率
monitor -c 5 com.example.service.OrderService findById

2.3 死循环排查

// 问题代码示例
public class InfiniteLoopDemo {
    private boolean flag = true;

    // 业务线程
    public void businessMethod() {
        // 常见问题:while循环缺少退出条件
        while (flag) {
            // 死循环,CPU 100%
            doSomething();
        }
    }

    // 排查方法
    // 1. jstack找出线程状态为RUNNABLE的线程
    // 2. 查看堆栈定位到具体代码行
    // 3. 检查循环条件是否永远不会变成false
}
# jstack输出分析
"worker-thread-1" #12 prio=5 os_prio=0 tid=0x00007f8a9c001000 nid=0x5a2e runnable [0x00007f8a6caf7000]
   java.lang.Thread.State: RUNNABLE
        at com.example.service.InfiniteLoopDemo.businessMethod(InfiniteLoopDemo.java:25)
        - locked <0x00000000d5c0a8a0> (a java.lang.Object)
        at com.example.service.OrderService.process(OrderService.java:108)
        at sun.misc.Unsafe.park(Native Method)

# 定位:第25行是while循环的doSomething()调用

2.4 正则表达式灾难性回溯

// 问题:正则表达式导致CPU飙升
public class RegexCatastrophicBacktracking {

    // 问题正则:嵌套的量词导致指数级回溯
    // 目标字符串: "aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaX"
    private static final Pattern BAD_PATTERN = Pattern.compile("(a+)+b");

    // 好的正则:使用原子组或改写
    private static final Pattern GOOD_PATTERN = Pattern.compile("a++b"); // 占有量词

    public static void dangerousMatch(String input) {
        long start = System.currentTimeMillis();
        boolean matches = BAD_PATTERN.matcher(input).matches();
        long duration = System.currentTimeMillis() - start;
        System.out.println("耗时: " + duration + "ms");
        // 输入40个a+1个X,耗时可能超过10秒
    }

    // 排查方法
    // 1. jstack发现正则匹配的线程一直处于RUNNABLE
    // 2. 使用Arthas的monitor或trace跟踪方法耗时
    // 3. 使用re2j或改写正则
}

2.5 上下文切换过高

# 查看上下文切换
vmstat 1
# cs列表示上下文切换次数

# 如果cs > 10000,说明切换频繁

# 查看具体哪个进程导致
pidstat -w 1

# 查看线程自愿切换和非自愿切换
pidstat -w -t -p <PID> 1

# 常见原因:
# 1. 锁竞争激烈(非自愿切换高)
# 2. 线程数过多(线程调度开销)
# 3. 频繁的sleep/wakeup(自愿切换高)

来源:
https://vhjpe.cn/

相关文章
|
8天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
2967 7
|
10天前
|
Shell API 开发工具
Claude Code 快速上手指南(新手友好版)
AI编程工具卷疯啦!Claude Code凭借任务驱动+终端原生的特性,成了开发者的效率搭子。本文从安装、登录、切换国产模型到常用命令,手把手带新手快速上手,全程避坑,30分钟独立用起来。
3068 20
|
23天前
|
人工智能 JSON 供应链
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
LucianaiB分享零成本畅用JVS Claw教程(学生认证享7个月使用权),并开源GeoMind项目——将JVS改造为科研与产业地理情报可视化AI助手,支持飞书文档解析、地理编码与腾讯地图可视化,助力产业关系图谱构建。
23567 15
畅用7个月无影 JVS Claw |手把手教你把JVS改造成「科研与产业地理情报可视化大师」
|
4天前
|
人工智能 Linux BI
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
JeecgBoot AI专题研究 一键脚本:Claude Code + JeecgBoot Skills + DeepSeek 全平台接入 一行命令装好 Claude Code + JeecgBoot Skills + DeepSeek 接入,无需翻墙使用 Claude Code,支持 Wind
1953 3
国内用 Claude Code 终于不用翻墙了:一行命令搞定,自动接 DeepSeek
|
10天前
|
人工智能 JSON BI
DeepSeek V4-Pro 接入 Claude Code 完全实战:体验、测试与关键避坑指南
Claude Code 作为当前主流的 AI 编程辅助工具,凭借强大的代码理解、工程执行与自动化能力深受开发者喜爱,但原生模型的使用成本相对较高。为了在保持能力的同时进一步降低开销,不少开发者开始寻找兼容度高、价格更友好的替代模型。DeepSeek V4 系列的发布带来了新的选择,该系列包含 V4-Pro 与 V4-Flash 两款模型,并提供了与 Anthropic 完全兼容的 API 接口,理论上只需简单修改配置,即可让 Claude Code 无缝切换为 DeepSeek 引擎。
2460 3
|
8天前
|
人工智能 安全 开发工具
Claude Code 官方工作原理与使用指南
Claude Code 不是传统代码补全工具,而是 Anthropic 推出的终端 AI 代理,具备代理循环、双驱动架构(模型+工具)、全局项目感知、6 种权限模式等核心能力,本文基于官方文档系统解析其工作原理与高效使用技巧。
1339 0
|
8天前
|
存储 Linux iOS开发
【2026最新】MarkText中文版Markdown编辑器使用图解(附安装包)
MarkText是一款免费开源、跨平台的Markdown编辑器,主打所见即所得实时预览,支持Windows/macOS/Linux。内置数学公式、流程图、代码高亮、多主题及PDF/HTML导出,是Typora的轻量免费替代首选。(239字)