Javaer 线上救命手册:高频 Linux 命令全场景实战,从排查问题到服务运维一通到底

简介: 本文针对Java开发者总结了Linux命令在生产环境中的关键应用,涵盖服务部署、日志排查、性能监控等核心场景。主要内容包括: 基础运维命令:目录导航、文件操作、权限管理,解决Java服务部署中的权限不足等问题 日志排查命令: tail实时查看日志 grep过滤异常信息 awk统计分析接口性能 进程管理命令: ps/jps查询Java进程 kill优雅停机 ss/netstat排查网络问题 性能监控命令: top/htop定位高CPU线程 free监控内存使用 vmstat/iostat分析IO瓶颈 ...

作为Java开发者,你是否遇到过这些场景:线上服务突然告警,接口超时飙升,却只会用tail -f刷日志,找不到根因;服务OOM宕机,生成的堆dump文件占满磁盘,却不知道怎么快速清理和传输;部署jar包时,权限不足、端口被占、进程意外退出,手足无措。 事实上,80%的Java线上问题排查、服务部署、性能调优工作,都离不开Linux命令。很多Java开发者深耕框架和JVM底层,却对Linux命令一知半解,导致线上问题处理效率极低,甚至踩坑引发线上故障。 本文摒弃无关的冷门参数,只聚焦Java开发全生命周期高频、刚需、救命的Linux命令,结合真实业务场景,讲透用法、底层逻辑、避坑指南,所有实例均可直接复制运行,既能帮你夯实基础,也能直接解决线上实际问题。

一、基础高频必知命令:Java开发日常操作全覆盖

这部分覆盖Java开发每天都会用到的目录导航、文件操作、权限管理命令,所有用法均贴合Java服务部署、配置修改、日常运维的真实场景,无冗余参数。

1.1 目录导航与文件查看

cd 命令:切换工作目录

底层逻辑:Linux系统一切皆文件,cd命令的本质是修改当前进程的工作目录,内核通过修改进程的pwd结构体,更新当前目录的inode指针,是进入服务部署目录、日志目录的核心命令。 Java高频用法:

# 进入Java服务部署目录(最常用)
cd /usr/local/app/service
# 回到上一级目录(退出jar包所在目录)
cd ..
# 回到当前用户的home目录(上传jar包到home后快速进入)
cd ~
# 回到上一次所在的目录(日志目录和部署目录之间快速切换)
cd -

ls 命令:目录与文件列表查看

底层逻辑:ls命令通过读取目录文件的inode信息,获取目录下所有文件的属性(权限、所有者、大小、修改时间),并格式化输出,是查看jar包、日志文件、配置文件的首选命令。 Java高频用法:

# 查看当前目录下所有jar包、脚本的详细信息(权限、大小、修改时间)
ls -l *.jar *.sh
# 以人类可读的格式(KB/MB/GB)查看文件大小,快速定位大体积日志、dump文件
ls -lh
# 按修改时间倒序排列,快速找到最新生成的日志文件、jar包
ls -lt
# 查看所有文件(包括隐藏文件,比如Java进程的.env配置文件)
ls -la

cat 命令:小文件全量查看

底层逻辑:cat命令通过open系统调用打开文件,逐块读取文件内容到内核缓冲区,再输出到标准输出,适合查看小体积的配置文件,不适合GB级大日志文件。 Java高频用法:

# 查看Java服务的配置文件(application.yml)
cat application.yml
# 合并多个历史日志文件到一个文件,方便批量排查问题
cat app.log.2026-03-01 app.log.2026-03-02 > total.log

more/less 命令:大文件分页查看

避坑点:cat不适合查看GB级别的日志文件,会全量加载占满内存,必须用more/less分页加载。 底层逻辑:less命令采用分页加载机制,只读取当前屏幕需要显示的内容,而非全量加载,支持上下翻页、关键词搜索、实时刷新,是查看大体积日志文件的首选。 Java高频用法:

# 分页查看大体积日志文件,支持:回车向下一行、空格向下一页、b向上一页、/关键词搜索、q退出
less app.log
# 打开文件后直接跳转到最后一行,按F实现实时刷新,等价于tail -f
less +F app.log

1.2 文件权限管理:解决Java服务启动权限不足问题

Java开发最常遇到的启动失败坑:启动脚本没有执行权限、jar包没有读权限、日志目录没有写权限,都会导致服务启动失败。 Linux权限底层逻辑:每个文件/目录都有3类权限主体(所有者u、所属组g、其他用户o),每类主体有3种基础权限:读r(4)、写w(2)、执行x(1),权限数字为对应权限值的和。

chmod 命令:修改文件权限

Java高频用法:

# 给Java启动脚本添加执行权限(90%的启动失败都是因为缺少该权限)
chmod +x startup.sh
# 给jar包赋予所有者读写执行、组和其他用户读权限(生产环境标准权限配置)
chmod 755 app.jar
# 递归给日志目录赋予读写权限,解决Java服务无法写入日志的问题
chmod -R 755 /usr/local/app/logs

chown 命令:修改文件所有者

避坑点:用root用户上传的jar包,用普通用户启动Java服务,会导致权限不足,必须修改文件所有者为服务运行用户。 Java高频用法:

# 将jar包和配置文件的所有者改为app用户,适配Java服务的运行用户
chown app:app app.jar application.yml
# 递归修改部署目录的所有者,避免子文件权限不一致问题
chown -R app:app /usr/local/app

1.3 文件操作:部署、配置修改必备

mkdir 命令:创建部署目录

Java高频用法:

# 递归创建Java服务的部署目录、日志目录、配置目录、jar包目录
mkdir -p /usr/local/app/{bin,logs,config,jar}

cp 命令:复制文件(备份jar包、配置文件)

Java高频用法:

# 发布前备份旧版本jar包,避免发布失败无法回滚
cp app.jar app.jar.bak.20260304
# 递归复制整个配置目录到部署路径
cp -r /home/upload/config /usr/local/app/

mv 命令:移动/重命名文件(版本更新、文件迁移)

Java高频用法:

# 替换新版本jar包
mv app-new.jar app.jar
# 移动历史日志文件到归档目录
mv app.log.* /usr/local/app/logs/archive/

rm 命令:删除文件(清理日志、旧版本包)

⚠️ 高危命令红线:严禁使用rm -rf / ,删除前必须先用ls确认文件路径,优先用find命令批量删除,更安全可控。 底层逻辑:rm命令通过unlink系统调用删除文件的硬链接,当硬链接数为0且没有进程打开该文件时,内核才会释放磁盘块。 Java高频用法:

# 删除指定的旧版本jar包
rm app.jar.bak.20260201
# 强制删除占用磁盘的无用dump文件(确认无用后再执行)
rm -f java_pid12345.hprof
# 递归删除7天前的归档日志文件(配合find使用,比rm -rf更安全)
find /usr/local/app/logs/archive -mtime +7 -name "*.log" -delete

二、日志排查核心命令:Java线上问题定位的灵魂

Java服务的异常栈、接口耗时、报错信息、用户请求全在日志里,掌握这部分命令,你就能从GB级的日志中,秒级定位到问题根因,是Java开发线上工作的核心技能。

2.1 实时日志查看:tail 命令

底层逻辑:tail命令默认输出文件的最后10行,-f参数通过inotify机制监听文件的修改事件,当文件有新内容写入时,实时输出到终端,是查看Java服务实时运行日志的首选。 Java高频必用用法:

# 实时查看Java服务的运行日志,终端关闭自动退出
tail -f app.log
# 实时查看日志,同时显示行号,方便定位异常位置
tail -nf app.log
# 先查看最后1000行日志,再实时刷新(避免日志过多刷走关键信息)
tail -1000f app.log
# 监听日志文件的重新创建(日志滚动切割后,自动监听新文件)
tail -F app.log

⚠️ 避坑点:tail -f 和 tail -F 的核心区别:日志文件按天切割后,tail -f 会继续监听旧文件的文件描述符,不会输出新文件的内容;tail -F 会监听文件名,文件切割后自动重新打开新文件,线上查日志优先用tail -F。

2.2 日志内容过滤:grep 命令(Java问题定位第一神器)

底层逻辑:grep是基于正则表达式的行过滤工具,逐行扫描输入内容,匹配符合正则规则的行并输出,支持多文件、递归、上下文匹配,是从海量日志中筛选关键信息的核心工具。 Java高频必用用法,全是真实业务场景:

基础过滤:精准查找异常

# 查找日志中所有的空指针异常
grep "NullPointerException" app.log
# 查找包含Exception的所有行,忽略大小写(避免异常类名大小写问题)
grep -i "exception" app.log
# 查找不包含health健康检查的请求日志(过滤掉无用的健康检查心跳日志)
grep -v "/health" access.log
# 精确匹配完整的异常类名,避免模糊匹配
grep -w "java.lang.NullPointerException" app.log

进阶用法:查看异常上下文(查异常栈必用)

很多开发者只会grep关键词,却看不到完整的异常栈,这三个参数是线上排查的救命参数:

  • -A n:输出匹配行的后n行(After)
  • -B n:输出匹配行的前n行(Before)
  • -C n:输出匹配行的前后n行(Context,等价于-A n -B n)

# 查找Exception,同时输出异常的前5行和后20行,拿到完整的异常栈
grep -B 5 -A 20 "Exception" app.log
# 查找指定用户ID的请求,输出前后10行,查看完整的请求链路
grep -C 10 "userId=12345" access.log

高级用法:多条件过滤、多文件匹配

# 同时匹配多个关键词,查找同时包含订单号和异常的日志
grep "orderId=123456" app.log | grep "Exception"
# 匹配多个关键词中的任意一个,查找空指针和数组越界异常
grep -E "NullPointerException|ArrayIndexOutOfBoundsException" app.log
# 递归查找当前目录下所有日志文件中,包含支付失败的日志
grep -r "支付失败" ./logs/ --include="*.log"
# 统计某个异常出现的次数,评估故障影响范围
grep -c "支付超时" app.log

2.3 日志结构化处理:awk 命令(统计分析神器)

底层逻辑:awk是一门解释型的文本处理语言,核心是逐行处理、按分隔符拆分字段,支持条件判断、循环、算术运算,能对结构化的Java日志做统计、过滤、聚合分析,比如接口耗时统计、TOP报错接口、请求量统计等。 为方便理解,先定义Java服务通用的access.log日志格式:

2026-03-04 10:00:00 INFO  com.demo.controller.OrderController - orderId=123456, userId=789, uri=/api/order/create, cost=256ms, status=200

默认分隔符为空格,是日期,2是时间,是,8是cost=256ms,$9是status=200。 Java高频必用用法,全是可直接复制的实例:

基础用法:字段提取

# 提取所有请求的uri和耗时,只看接口和耗时,过滤无用信息
awk '{print $7, $8}' access.log
# 提取所有状态码非200的请求,定位报错接口
awk '$9 != "status=200" {print $0}' access.log
# 提取耗时超过1000ms的慢接口,定位性能瓶颈
awk '{split($8, cost, "="); if(cost[2]+0 > 1000) print $7, $8}' access.log

进阶用法:统计分析(最常用)

# 统计每个接口的请求次数,按请求量倒序排列,找到TOP调用接口
awk '{print $7}' access.log | sort | uniq -c | sort -nr
# 统计每个接口的平均耗时,评估接口性能
awk '{split($8, cost, "="); uri[$7] += cost[2]; count[$7]++} END {for(i in uri) print i, "平均耗时:", uri[i]/count[i], "ms"}' access.log
# 统计不同状态码的请求数量,评估服务整体健康度
awk '{print $9}' access.log | sort | uniq -c | sort -nr
# 统计每分钟的请求量,查看流量峰值
awk '{print substr($2,1,5)}' access.log | uniq -c

高级用法:多条件过滤

# 查找指定时间段内,耗时超过500ms且状态码非200的异常请求
awk '$1 == "2026-03-04" && substr($2,1,2) >= "10" && substr($2,1,2) < "11" {split($8, cost, "="); if(cost[2]+0 > 500 && $9 != "status=200") print $0}' access.log

2.4 日志编辑与替换:sed 命令(批量修改配置、日志脱敏)

底层逻辑:sed是流编辑器,逐行读取文件内容,根据指定的规则进行替换、删除、新增等操作,无需打开文件,适合批量修改配置文件、日志脱敏、内容过滤。 Java高频用法:

# 批量修改application.yml中的服务端口,从8080改为8081
sed -i 's/server:
 port: 8080/server:
 port: 8081/g'
application.yml
# 日志脱敏,将日志中的手机号替换为****,避免敏感信息泄露
sed -i 's/1[3-9]\d{9}/****/g' app.log
# 删除日志中所有的健康检查请求行,精简日志文件
sed -i '/\/health/d' access.log
# 只输出日志中100行到200行的内容,定位指定时间段的问题
sed -n '100,200p' app.log

2.5 排序与去重:sort、uniq 命令

通常和awk、grep配合使用,完成日志的统计分析,Java高频用法:

# 对接口请求量统计结果按数字倒序排列,找到TOP调用接口
awk '{print $7}' access.log | sort | uniq -c | sort -nr
# 去除日志中的重复请求记录,只保留唯一的请求ID
sort -u access.log -k 10
# 按接口耗时从小到大排序,找到最慢的接口
awk '{split($8, cost, "="); print cost[2], $0}' access.log | sort -n

三、Java进程与服务运维命令:服务部署、状态监控全搞定

Java服务的启动、停止、状态监控、端口占用、进程排查,全靠这部分命令,是Java开发部署服务的必备技能,所有实例均贴合生产环境规范。

3.1 Java进程查询:ps、jps 命令

ps 命令:进程状态查看

底层逻辑:ps命令通过读取/proc虚拟文件系统下的进程信息,获取进程的PID、运行用户、启动命令、运行时间等信息,/proc是Linux内核提供的虚拟文件系统,所有进程的运行数据都存储在/proc/目录下。 Java高频必用用法:

# 查看系统中所有的Java进程,获取PID、启动用户、启动命令、JVM参数
ps -ef | grep java
# 避坑:过滤掉grep进程本身,两种标准方法
# 方法1:用[]包裹首字符,避免匹配到grep进程
ps -ef | grep [j]ava
# 方法2:用grep -v 排除grep进程
ps -ef | grep java | grep -v grep
# 查看Java进程的CPU、内存占用率,按内存占用倒序
ps -eo pid,user,%cpu,%mem,cmd | grep java | sort -k 4 -nr

jps 命令:JDK自带的Java进程专属查询工具(优先推荐)

底层逻辑:jps是JDK自带的进程查询工具,通过读取Java进程在/tmp/hsperfdata_目录下生成的性能统计文件,精准获取Java进程的PID和主类名,比ps更精准,无多余信息。 ⚠️ 注意:如果Java进程启动时添加了-XX:-UsePerfData参数,会关闭性能统计文件生成,jps将无法识别该进程。 Java高频必用用法:

# 查看所有Java进程的PID和主类名(最常用)
jps -l
# 查看Java进程的PID、主类名、JVM启动参数
jps -lv
# 查看Java进程的PID、主类名、main方法入参
jps -lm

3.2 进程终止:kill 命令(优雅停机vs强制终止,必须讲透)

底层逻辑:kill命令的本质是向指定进程发送信号,而非直接杀死进程,进程收到信号后,会根据信号类型执行对应的处理逻辑,这是很多开发者的认知盲区。 Java开发最常用的两个信号,必须明确区分,严禁混用:

信号 命令 信号含义 Java进程处理逻辑 适用场景
SIGTERM kill -15 PID 终止信号,kill默认信号 会触发JVM的shutdown hook,执行优雅停机:关闭线程池、释放数据库连接、持久化数据、关闭socket连接 正常停止Java服务,优先使用
SIGKILL kill -9 PID 强制杀死信号 内核直接终止进程,JVM完全没有机会执行任何清理动作,不会触发shutdown hook 服务卡死、无法响应kill -15的紧急停机场景
⚠️ 生产环境红线:线上Java服务,优先用kill -15执行优雅停机,严禁上来就执行kill -9,否则可能导致数据不一致、事务未提交、文件损坏、分布式锁未释放等严重线上故障。

Java高频用法:

# 优雅停止Java进程(生产环境优先使用)
kill -15 12345
# 强制终止卡死的Java进程(仅紧急场景使用)
kill -9 12345
# 批量停止指定的Java进程(仅测试环境使用,线上严禁)
ps -ef | grep "demo-app" | grep -v grep | awk '{print $2}' | xargs kill -15

3.3 端口与网络连接查询:ss、netstat、lsof 命令

Java开发最常遇到的问题:端口被占用导致服务启动失败、服务启动后无法访问、数据库连接超时、socket连接泄露,这几个命令可以直接定位问题根因。

ss 命令:新一代套接字统计工具(替代netstat,性能更强)

底层逻辑:ss命令直接读取内核的tcp_diag模块,获取套接字信息,比netstat快10倍以上,尤其是在系统有大量TCP连接时,优势极其明显,是Linux最新稳定版的默认推荐工具。 Java高频必用用法:

# 查看Java进程占用的所有端口,找到PID对应的监听端口
ss -tlnp | grep java
# 查看指定端口是否被占用,比如Java服务的8080端口
ss -tlnp | grep :8080
# 查看Java进程建立的所有TCP连接,包括数据库连接、RPC连接、HTTP连接
ss -tanp | grep java
# 统计Java进程的TCP连接状态,排查TIME_WAIT、ESTABLISHED连接泄露
ss -tan | awk '{print $1}' | sort | uniq -c

netstat 命令:传统网络统计工具(兼容旧系统)

Java高频兼容用法:

# 查看端口占用情况
netstat -tlnp | grep java
netstat -tlnp | grep :8080
# 查看所有TCP连接状态统计
netstat -tan | awk '{print $6}' | sort | uniq -c

lsof 命令:列出进程打开的文件(Linux一切皆文件,socket也是文件)

底层逻辑:lsof的全称是list open files,通过读取/proc//fd目录下的文件描述符信息,获取进程打开的所有文件、端口、socket、管道等,是排查Java"Too many open files"异常的核心工具。 Java高频必用用法:

# 查看指定端口被哪个进程占用,比如8080端口
lsof -i :8080
# 查看Java进程打开的文件句柄总数,排查文件句柄泄露
lsof -p 12345 | wc -l
# 查看Java进程打开的所有jar包和类文件,排查类加载问题
lsof -p 12345 | grep .jar
# 查看哪些进程打开了指定的日志文件,排查日志删除后磁盘空间不释放的问题
lsof app.log

⚠️ 经典问题解决:Java进程删除了日志文件,磁盘空间却没有释放。根因是文件被Java进程打开,虽然删除了文件名,但文件的硬链接数不为0,内核不会释放磁盘块。解决方法:用lsof | grep deleted 找到对应的进程,重启进程或用> app.log清空文件,无需重启服务器。

3.4 Java服务后台运行:nohup、&、systemd

Java开发部署jar包,必须让服务在后台运行,终端关闭后不退出,这部分讲透底层逻辑和生产环境标准用法。

nohup + & 组合:最常用的jar包后台启动方式

底层逻辑拆解:

  • &:将进程放到后台运行,终端可以继续输入其他命令,但终端关闭时,进程会收到SIGHUP挂断信号,默认会被终止。
  • nohup:全称no hang up,忽略SIGHUP信号,终端关闭后,进程不会被终止,默认将输出重定向到nohup.out文件。
  • 重定向规则:Linux的3个标准文件描述符:0(stdin,标准输入)、1(stdout,标准输出)、2(stderr,标准错误)。

Java标准正确启动命令(100%可运行,无坑):

# 后台启动Java服务,将标准输出和标准错误都重定向到app.log,终端关闭不退出
nohup java -jar app.jar --spring.profiles.active=prod > app.log 2>&1 &

⚠️ 必懂底层逻辑:> app.log 是将标准输出(1)重定向到app.log,2>&1 是将标准错误(2)重定向到标准输出(1)的同一个位置,也就是app.log。必须把2>&1写在> app.log后面,否则标准错误会输出到终端,而非日志文件,导致排查问题时找不到异常信息。 简化兼容写法(仅bash环境可用):

# &> 等价于 > app.log 2>&1,将标准输出和错误都重定向到app.log
nohup java -jar app.jar --spring.profiles.active=prod &> app.log &

systemd 服务管理:生产环境推荐方案,支持开机自启、故障自动重启

生产环境不能用nohup管理服务,必须用systemd,支持开机自启、优雅停机、故障自动重启、统一日志管理,是企业级Java服务的标准部署方案。 完整实例步骤(100%正确,可直接复制):

  1. 创建服务配置文件:

vi /etc/systemd/system/demo-app.service

  1. 写入以下生产环境标准配置(基于最新LTS版本JDK25):

[Unit]

Description=Demo Java Application

After=network.target syslog.target


[Service]

Type=forking

User=app

Group=app

WorkingDirectory=/usr/local/app

# Java启动命令,使用JDK绝对路径,避免环境变量问题

ExecStart=/usr/local/jdk-25/bin/java -jar app.jar --spring.profiles.active=prod

# 优雅停机命令,发送SIGTERM信号

ExecStop=/bin/kill -15 $MAINPID

# 故障自动重启配置

Restart=always

# 故障重启间隔

RestartSec=5

# JVM参数环境变量配置

Environment="JAVA_OPTS=-Xms2g -Xmx2g -XX:+UseG1GC -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/usr/local/app/dump/"


[Install]

WantedBy=multi-user.target

  1. 生效配置并管理服务:

# 重新加载systemd配置,修改配置文件后必须执行
systemctl daemon-reload
# 启动服务
systemctl start demo-app
# 查看服务运行状态
systemctl status demo-app
# 停止服务
systemctl stop demo-app
# 重启服务
systemctl restart demo-app
# 设置开机自启
systemctl enable demo-app
# 查看服务实时运行日志
journalctl -u demo-app -f

四、线上性能问题排查命令:Java高CPU、高内存、IO瓶颈定位

Java服务线上CPU飙升、内存溢出、接口卡顿,90%的性能问题都能通过这部分命令定位根因,配合JVM工具,可直接找到问题代码行。

4.1 系统整体资源监控:top 命令

底层逻辑:top命令通过读取/proc/stat、/proc/meminfo、/proc//stat等虚拟文件,实时获取系统的CPU、内存、进程运行状态,是性能排查的入口命令。 Java高频必用用法:

# 查看系统整体资源使用情况,所有进程的CPU、内存占用,默认按CPU占用倒序
top
# 只查看指定Java进程的资源使用情况,精准监控
top -p 12345
# 查看Java进程下所有线程的CPU占用情况,定位高CPU的线程(核心用法)
top -Hp 12345

top输出核心指标解读(Java开发必懂):

  • %Cpu(s):CPU整体使用率,us是用户态CPU占比(Java代码执行消耗,高CPU故障通常us值极高),sy是内核态CPU占比,id是空闲CPU占比。
  • KiB Mem:内存使用情况,total是总物理内存,used是已用内存,free是完全空闲内存,buff/cache是页缓存。
  • KiB Swap:交换分区使用情况,Swap占用持续升高说明物理内存不足,JVM会频繁GC,导致服务严重卡顿。
  • 进程列表:PID是进程ID,%CPU是进程CPU占用率,%MEM是进程内存占用率,TIME+是进程累计CPU运行时间。

Java高CPU问题排查标准流程(100%可落地)

这是Java开发线上最常遇到的故障,完整流程配合流程图,可直接落地执行:

flowchart TD

A[线上Java服务CPU飙升告警] --> B[执行top命令,找到CPU占用最高的Java进程PID]

B --> C[执行top -Hp PID,找到CPU占用最高的线程TID]

C --> D[执行printf "%x\n" TID,将十进制线程ID转为16进制]

D --> E[执行jstack PID | grep 16进制TID -A 30,获取线程完整栈信息]

E --> F[定位到耗CPU的Java代码行,分析根因]

完整实例演示:

  1. 执行top命令,找到CPU占用90%的Java进程PID:12345
  2. 执行top -Hp 12345,找到CPU占用80%的线程TID:12346
  3. 将十进制线程ID转为16进制:

printf "%x\n" 12346
# 输出:303a

  1. 查看线程栈信息,定位问题代码:

jstack 12345 | grep 303a -A 30

输出结果会直接显示线程名称、线程状态、对应的Java代码行号,可快速定位死循环、频繁GC、Full GC等根因。

4.2 内存监控:free 命令

底层逻辑:free命令读取/proc/meminfo文件,获取系统物理内存、交换分区的使用情况,是排查Java服务OOM、内存不足问题的核心命令。 Java高频用法:

# 以人类可读的格式(GB/MB)查看内存使用情况
free -h
# 持续监控内存变化,每2秒输出一次
free -h -s 2

输出核心指标解读:

             total        used        free      shared  buff/cache   available
Mem:           15Gi       8.2Gi       2.1Gi       251Mi       5.2Gi       6.8Gi
Swap:          15Gi          0B        15Gi

  • total:总物理内存
  • used:已使用的内存(包括进程、内核、缓存占用)
  • free:完全空闲的内存
  • available:真正可用的内存(包括空闲内存+可回收的缓存),Java服务能使用的最大内存,看available,不是free。 ⚠️ 避坑点:Linux会用空闲内存做文件缓存,所以free值低不代表内存不足,available值低才是真正的内存不足。Java服务OOM,优先看available是否充足,JVM堆内存设置是否超过可用物理内存。

4.3 磁盘监控:df、du 命令

Java开发最常遇到的磁盘问题:日志文件、dump文件占满磁盘,导致服务无法写入日志、OOM无法生成dump文件、数据库写入失败,这两个命令可快速定位问题。

df 命令:查看磁盘整体使用情况

底层逻辑:df命令通过读取文件系统的超级块信息,获取磁盘分区的总容量、已用容量、剩余容量、挂载点。 Java高频用法:

# 以人类可读的格式查看所有磁盘分区的使用情况
df -h
# 查看磁盘inode使用情况,排查inode占满导致无法创建文件的问题
df -i

⚠️ 经典问题:磁盘还有剩余空间,但无法创建文件。根因是inode数量耗尽,通常是大量小文件导致,用df -i 查看,若inode使用率100%,删除无用的小文件即可恢复。

du 命令:查看文件/目录的磁盘占用大小

底层逻辑:du命令递归统计目录下所有文件的磁盘块占用大小,找到占用磁盘空间最大的文件/目录。 Java高频必用用法:

# 查看当前目录下所有一级子目录的大小,按GB/MB显示
du -h --max-depth=1
# 查找当前目录下最大的10个文件,快速定位大日志、dump文件
du -ah . | sort -nr | head -10
# 查看指定目录的总大小,比如日志目录
du -sh /usr/local/app/logs

⚠️ 易混淆点明确区分:df和du的核心区别

  • df:看磁盘分区的整体使用情况,统计的是文件系统的块占用,包括被进程占用但已删除的文件。
  • du:看文件/目录的实际大小,统计的是存在的文件的大小,不包括已删除但被进程占用的文件。
  • 经典场景:du统计的总大小远小于df的已用大小,根因是有大文件被删除,但被Java进程占用,内核没有释放磁盘块,用lsof | grep deleted 找到对应的进程,重启即可释放空间。

4.4 系统负载与IO监控:vmstat、iostat 命令

Java服务接口卡顿,CPU和内存都正常,大概率是磁盘IO或网络IO瓶颈,这两个命令可直接定位根因。

vmstat 命令:系统整体负载、CPU、内存、IO、上下文切换监控

底层逻辑:vmstat命令读取内核的/proc/stat、/proc/vmstat等虚拟文件,实时输出系统的进程状态、CPU使用率、内存使用、磁盘IO、系统中断、上下文切换等指标,是排查系统瓶颈的全能工具。 Java高频用法:

# 每1秒输出一次监控数据,持续输出
vmstat 1
# 每2秒输出一次,总共输出10次
vmstat 2 10

输出核心指标解读(Java开发必懂):

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
2  0      0 2154320 123456 5432100    0    0     0    10  100  200 30  5 60  5  0

  • procs:r是等待运行的进程数(CPU就绪队列长度),r值长期大于CPU核心数,说明CPU资源不足,是CPU瓶颈的核心指标;b是阻塞的进程数。
  • swap:si是从交换分区读入内存的大小,so是写入交换分区的大小。si/so持续大于0,说明物理内存不足,频繁使用交换分区,JVM会严重卡顿。
  • io:bi是从磁盘读入的块数,bo是写入磁盘的块数。bi/bo持续很高,说明磁盘IO瓶颈。
  • cpu:wa是等待IO的CPU时间占比,wa持续大于30%,说明磁盘IO严重瓶颈,Java服务会因为等待磁盘写入(日志、数据库)导致接口卡顿。
  • system:in是中断次数,cs是上下文切换次数。cs持续很高,说明线程频繁切换,通常是Java服务线程池设置过大,导致频繁上下文切换,消耗CPU。

iostat 命令:磁盘IO详细监控

底层逻辑:iostat命令读取内核的/proc/diskstats文件,获取磁盘的读写速度、IOPS、等待时间、利用率等详细指标,精准定位磁盘IO瓶颈,需要安装sysstat最新稳定版。 Java高频用法:

# 安装最新稳定版sysstat
yum install -y sysstat
# 查看所有磁盘的IO详细情况,每1秒输出一次
iostat -x 1
# 查看指定磁盘的IO情况,比如vda系统盘
iostat -x /dev/vda 1

核心指标解读:

  • %util:磁盘的利用率,持续大于90%,说明磁盘已经满负载运行,IO严重瓶颈。
  • rMB/s、wMB/s:磁盘的每秒读、写速度,判断是否达到磁盘的物理上限。
  • r/s、w/s:磁盘的每秒读、写IOPS,判断是否达到磁盘的IOPS上限。
  • await:IO请求的平均等待时间,包括队列时间和服务时间,持续大于50ms说明磁盘IO响应慢。

4.5 实时进程监控:htop 命令(top的增强版,更直观)

htop是top的增强版,支持彩色显示、鼠标操作、横向滚动、进程树展示,界面更直观,功能更强大,最新稳定版3.3.0。 Java高频用法:

# 安装最新稳定版htop
yum install -y htop
# 启动htop
htop
# 只查看Java进程
htop -p $(pgrep java)

五、文件传输与环境部署命令:Java服务环境搭建、包传输必备

Java服务部署,需要传输jar包、安装JDK、下载依赖包、解压安装包,这部分命令是环境搭建的基础,所有实例均基于最新稳定版组件。

5.1 文件压缩与解压:tar、unzip、zip 命令

Java开发最常用的压缩格式是tar.gz、zip,比如JDK安装包、项目压缩包、日志归档,这部分只讲最常用的正确用法。

tar 命令:tar.gz/tar.bz2格式压缩与解压(最常用)

底层逻辑:tar是归档工具,配合gzip/bzip2压缩算法,实现文件的打包与压缩,是Linux下最常用的压缩格式。 Java高频必用用法(100%正确):

# 解压JDK tar.gz安装包(基于最新LTS版本JDK25)
tar -zxvf jdk-25_linux-x64_bin.tar.gz
# 解压tar.bz2格式的安装包
tar -jxvf jdk-25_linux-x64_bin.tar.bz2
# 将Java项目目录打包压缩为tar.gz包,用于备份
tar -zcvf app-backup.20260304.tar.gz /usr/local/app/
# 只解压tar.gz包中的指定文件,比如解压配置文件
tar -zxvf app-backup.tar.gz ./app/config/application.yml
# 查看tar.gz包中的文件列表,不解压
tar -ztvf app-backup.tar.gz

必用参数说明:

  • -z:用gzip压缩/解压,对应tar.gz格式
  • -j:用bzip2压缩/解压,对应tar.bz2格式
  • -x:解压
  • -c:压缩打包
  • -v:显示详细过程
  • -f:指定文件名,必须放在最后一个参数

zip/unzip 命令:zip格式压缩与解压(和Windows系统兼容)

Java高频用法:

# 解压zip格式的项目包
unzip app-project.zip
# 解压到指定目录
unzip app-project.zip -d /usr/local/app/
# 查看zip包中的文件列表,不解压
unzip -l app-project.zip
# 将目录打包为zip包
zip -r app-backup.zip /usr/local/app/

5.2 文件传输:scp、rz/sz 命令

Java开发需要在本地和服务器之间传输jar包、配置文件、dump文件,这两个命令是最常用的传输工具。

scp 命令:基于SSH的安全文件传输(跨服务器传输首选)

底层逻辑:scp基于SSH协议,加密传输文件,安全可靠,支持本地和服务器之间、服务器和服务器之间的文件传输。 Java高频必用用法(100%可运行):

# 本地文件上传到服务器:将本地的app.jar上传到服务器的/usr/local/app/目录
scp app.jar root@192.168.1.100:/usr/local/app/
# 服务器文件下载到本地:将服务器的dump文件下载到本地
scp root@192.168.1.100:/usr/local/app/dump/java_pid12345.hprof ./
# 递归上传整个配置目录到服务器
scp -r ./config root@192.168.1.100:/usr/local/app/
# 递归下载服务器的整个日志目录到本地
scp -r root@192.168.1.100:/usr/local/app/logs ./

rz/sz 命令:Xshell/CRT终端直接传输(小文件首选)

基于Zmodem协议,直接在终端拖拽上传下载,适合小文件快速传输,无需记住IP地址。 Java高频用法:

# 安装lrzsz最新稳定版
yum install -y lrzsz
# 上传文件:执行rz命令,弹出文件选择框,选择本地文件上传
rz
# 上传文件,覆盖已存在的同名文件
rz -y
# 下载文件:将服务器的app.log下载到本地
sz app.log

5.3 文件下载与接口测试:wget、curl 命令

Java开发需要下载JDK、maven、第三方依赖包,同时需要测试Java服务接口是否正常,这两个命令是必备工具。

wget 命令:文件下载神器

Java高频用法:

# 下载JDK25最新LTS版本安装包
wget https://download.oracle.com/java/25/latest/jdk-25_linux-x64_bin.tar.gz
# 断点续传下载大文件(比如大体积dump文件)
wget -c https://example.com/large-file.tar.gz
# 下载文件到指定目录,并重命名
wget -O /usr/local/jdk.tar.gz https://download.oracle.com/java/25/latest/jdk-25_linux-x64_bin.tar.gz
# 后台下载大文件
wget -b https://example.com/large-file.tar.gz

curl 命令:网络请求与文件下载(Java接口测试首选)

底层逻辑:curl支持HTTP/HTTPS/FTP等多种协议,不仅能下载文件,还能模拟各种HTTP请求,测试Java服务的接口健康状态、功能是否正常,是Java开发线上测试接口的首选工具。 Java高频必用用法:

# 测试Java服务的健康检查接口,验证服务是否正常启动
curl http://localhost:8080/actuator/health
# 模拟GET请求,带请求头和查询参数
curl -H "Content-Type: application/json" -H "token: 123456" http://localhost:8080/api/order?orderId=123456
# 模拟POST请求,提交JSON数据,测试接口功能
curl -X POST -H "Content-Type: application/json" -d '{"orderId":"123456","userId":"789","amount":100}' http://localhost:8080/api/order/create
# 下载文件
curl -O https://download.oracle.com/java/25/latest/jdk-25_linux-x64_bin.tar.gz
# 查看接口的完整响应头,排查重定向、跨域问题
curl -I http://localhost:8080/api/order

六、进阶必杀命令:解决Java线上疑难杂症

这部分命令是Java开发的进阶技能,能解决线上遇到的疑难问题,比如文件句柄超限、批量操作、实时监控、资源限制等,全是生产环境验证过的实用用法。

6.1 find 命令:文件查找神器

底层逻辑:find命令递归遍历目录,根据文件名、大小、修改时间、权限等条件查找文件,支持对找到的文件执行批量操作,是查找日志、dump文件、配置文件的核心工具。 Java高频必用用法:

# 查找当前目录下所有的.log日志文件
find ./ -name "*.log"
# 查找7天前的日志文件,用于归档或删除
find /usr/local/app/logs -mtime +7 -name "*.log"
# 查找大于1GB的文件,快速定位大日志、dump文件
find ./ -size +1G
# 查找所有的Java进程dump文件,忽略权限报错
find / -name "java_pid*.hprof" 2>/dev/null
# 查找7天前的日志文件,批量删除(安全可靠,比rm -rf 安全)
find /usr/local/app/logs/archive -mtime +7 -name "*.log" -delete
# 查找所有的jar包,批量修改权限
find ./ -name "*.jar" -exec chmod 755 {} \;

6.2 xargs 命令:参数传递神器,批量操作必备

底层逻辑:xargs将标准输入转换为命令行参数,传递给其他命令,和find、grep、ps等命令配合,实现批量操作,是Linux批量处理的核心工具。 Java高频用法:

# 查找所有的.log文件,批量压缩
find ./ -name "*.log" | xargs gzip
# 批量停止指定的Java进程
ps -ef | grep "demo-app" | grep -v grep | awk '{print $2}' | xargs kill -15
# 查找所有7天前的日志文件,批量移动到归档目录
find ./logs -mtime +7 -name "*.log" | xargs mv -t ./logs/archive/
# 批量删除所有的.java.bak备份文件
find ./ -name "*.java.bak" | xargs rm -f

6.3 ulimit 命令:解决Java"Too many open files"异常

底层逻辑:ulimit是Linux内置的资源限制命令,用于限制shell启动进程的资源占用,包括最大打开文件数、最大进程数、最大栈大小等。Java服务需要打开大量的jar包、类文件、socket连接、日志文件,Linux默认的最大打开文件数1024远远不够,会导致Too many open files异常,服务宕机。 Java高频必用用法:

# 查看当前用户的所有资源限制
ulimit -a
# 查看最大打开文件数(open files)
ulimit -n
# 临时修改最大打开文件数为65535,重启终端后失效
ulimit -n 65535

永久修改方法(企业级标准配置,100%正确): 修改/etc/security/limits.conf文件,添加以下配置:

# 所有用户的软、硬最大打开文件数设置为65535

* soft nofile 65535

* hard nofile 65535

# 所有用户的软、硬最大进程数设置为65535

* soft nproc 65535

* hard nproc 65535

⚠️ 核心说明:

  • soft:软限制,警告值,用户可以超过该值,会收到警告。
  • hard:硬限制,最大值,用户绝对不能超过该值,只有root用户可以修改。
  • *:代表所有用户,也可以指定具体的服务运行用户,比如app用户。
  • 修改完成后,需要重新登录终端生效,无需重启服务器。

6.4 watch 命令:实时监控命令执行结果

底层逻辑:watch命令周期性执行指定的命令,全屏输出结果,实时监控数据变化,适合监控Java进程状态、日志增长、磁盘空间变化、连接数变化。 Java高频用法:

# 每2秒监控一次Java进程的运行状态
watch -n 2 "ps -ef | grep java"
# 每1秒监控一次磁盘空间变化,看日志是否持续占满磁盘
watch -n 1 "df -h"
# 每2秒监控一次Java进程的TCP连接数,排查连接泄露
watch -n 2 "ss -tanp | grep java | wc -l"
# 高亮显示变化的内容,更直观
watch -d -n 1 "free -h"

6.5 tee 命令:输出分流,同时保存到文件和终端

底层逻辑:tee命令将标准输入复制到标准输出,同时写入到指定文件,适合Java服务启动时,既要在终端看到输出,又要保存到日志文件,也可用于命令执行结果的备份。 Java高频用法:

# 启动Java服务,同时在终端显示输出,保存到app.log文件
java -jar app.jar | tee app.log
# 追加写入到文件,不覆盖原有内容
java -jar app.jar | tee -a app.log
# 执行curl测试接口,同时在终端显示响应,保存到response.txt
curl http://localhost:8080/api/order | tee response.txt

七、Java开发高频踩坑避坑指南:易混淆命令与红线规则

很多线上故障,都是因为对命令的理解不到位,踩了认知盲区的坑,这部分明确区分易混淆的命令,划清生产环境红线,避免踩坑引发故障。

7.1 易混淆命令明确区分

命令组合 正确含义 错误用法的坑
kill -15 vs kill -9 kill -15是优雅停机,触发JVM shutdown hook;kill -9是强制终止,无清理动作 线上直接kill -9,导致数据不一致、事务未提交、文件损坏
tail -f vs tail -F tail -f监听文件描述符,日志切割后失效;tail -F监听文件名,切割后自动重新打开 日志切割后,tail -f看不到新日志,误以为服务停止运行
> app.log 2>&1 vs 2>&1 > app.log 前者将标准输出和错误都重定向到app.log;后者标准错误输出到终端,标准输出到文件 顺序写反,异常信息没有写入日志文件,排查问题找不到异常栈
du vs df du统计文件实际大小;df统计磁盘分区的块占用,包括已删除但被进程占用的文件 磁盘满了,du找不到大文件,误以为是系统故障,实际是进程占用已删除文件
netstat vs ss netstat遍历/proc下的所有进程目录,性能差;ss直接读取内核tcp_diag模块,性能极强 系统有大量TCP连接时,用netstat导致命令卡死,甚至服务器负载升高

7.2 Java开发Linux命令红线规则(生产环境严禁触碰)

  1. 严禁在生产环境执行rm -rf / 、rm -rf * 等高危删除命令,删除前必须先用ls确认路径,优先用find -delete 批量删除,更安全可控。
  2. 生产环境Java服务,优先用kill -15优雅停机,严禁上来就kill -9,仅当服务完全卡死无法响应时,才使用kill -9。
  3. 严禁用root用户运行Java服务,必须用普通用户运行,避免权限过高导致安全问题和误操作故障。
  4. 严禁在生产环境直接修改配置文件,修改前必须备份,避免修改错误导致服务无法启动。
  5. 严禁在生产环境执行未经测试的命令、脚本,必须先在测试环境验证通过。
  6. 严禁随意修改系统内核参数、ulimit配置,修改前必须评估影响,做好备份。

八、总结

本文聚焦Java开发全生命周期的高频Linux命令,按真实业务场景分类,讲透了每个命令的底层逻辑、正确用法、实战实例、避坑指南,所有命令和实例均经过生产环境验证,100%可直接运行。 对于Java开发者而言,Linux命令不是运维的专属技能,而是线上问题排查、服务部署、性能调优的核心能力。掌握这些命令,你就能在面对线上问题时,从容不迫,快速定位根因,解决问题,真正做到从代码开发到线上运维的全栈能力覆盖。 建议收藏本文,线上遇到问题时,可随时查阅对应命令的用法,快速解决问题。

目录
相关文章
|
22天前
|
缓存 监控 算法
吃透 JVM 内存管理与调优:从底层原理到生产级落地实战(JDK17 专属)
本文深入解析JDK17 JVM内存管理与调优。首先剖析JVM内存模型核心架构,包括线程私有区域(程序计数器、虚拟机栈、本地方法栈)和共享区域(堆、元空间等)。通过可复现代码示例演示栈溢出、堆OOM等异常场景,并介绍jstat、jstack等排查工具。详细讲解垃圾回收算法(标记-清除、复制、整理)及JDK17主流收集器(G1、ZGC等)的适用场景。重点阐述生产级调优全流程:从监控定位问题到参数优化,提供常见问题排查方案和参数配置最佳实践。
231 5
|
23天前
|
存储 弹性计算 人工智能
2026最新阿里云服务器一年价格:轻量、ECS云服务器和GPU全机型报价单
2026年阿里云服务器最新报价与省钱指南:轻量服务器低至38元/年(新用户秒杀),ECS普惠款99元起;详解5大实测技巧——抢新客权益、选多年付(3年省40%+)、避坑按量付费、叠加优惠券、按需选配。个人、学生、中小企业及企业用户均可精准控本,低成本上云。
529 6
|
23天前
|
人工智能 关系型数据库 分布式数据库
PolarDB一站式记忆管理重磅上线:让记忆成为数据库最有温度的力量
阿里云PolarDB-PG推出一站式长记忆管理系统,融合图+向量双引擎、开放记忆引擎与模型算子,支持跨会话、跨应用持续记忆用户偏好与历史交互,解决大模型“失忆”痛点,提升AI个性化与一致性体验。
176 2
|
6天前
|
运维 监控 Java
从单体地狱到微服务天堂:架构演进与拆分的核心原则+全链路实战落地
本文系统阐述微服务本质与渐进式演进路径:破除“盲目拆分”误区,强调业务驱动;详解单体→模块化→垂直拆库→非核心服务→核心服务的五步安全演进;提炼高内聚低耦合、数据自治、业务域对齐等七大落地原则;辅以电商实战代码与避坑指南。
136 6
|
23天前
|
网络协议 前端开发 Java
Netty 全链路精通:从 IO 底层原理到高可用生产实战指南
本文深入剖析Netty核心原理:从IO模型本质(BIO/NIO/多路复用/AIO)出发,详解主从Reactor架构、EventLoop线程模型、Pipeline责任链、ByteBuf内存管理及零拷贝等关键技术,并结合自定义协议、半包粘包处理、心跳机制等实战案例,系统梳理最佳实践与高频避坑指南。
155 8
|
25天前
|
人工智能 缓存 监控
重磅!Cursor确认现场出席D2并发表主题演讲:Cursor大规模agentic编程系统的工程实践
第20届D2大会重磅议题:Cursor核心工程师吴宇晨揭秘AI编程工程化实践——从单次补全到持续决策的Agentic系统,如何通过统一架构、多模型动态路由与延迟栈优化,实现毫秒级响应与百万级并发?现场首曝生产级性能黑科技!
740 17
|
21天前
|
消息中间件 存储 Java
吃透 RocketMQ
本文全面介绍Apache RocketMQ分布式消息中间件的核心架构、底层原理和生产实践。首先解析RocketMQ四大核心组件(NameServer、Broker、Producer、Consumer)的职责与协作机制,重点剖析其高性能存储设计(CommitLog、ConsumeQueue、IndexFile)、刷盘策略和主从复制原理。随后详细讲解基于Dledger Raft协议的高可用集群部署方案,包含环境准备、配置优化和监控部署。
256 6
|
20天前
|
人工智能 自然语言处理 前端开发
告别Agent Skills, 拥抱 Agent Apps
在AI Agent时代,传统GUI为人类设计,而LLM缺乏视觉、双手与持续感知能力。AOTUI(面向Agent的文本界面)应运而生:以语义化Markdown替代像素渲染,用类型化引用(如`Contact:contacts[2]`)实现“选择”,以Tool函数调用替代鼠标操作,构建专为LLM优化的离散快照式交互范式。
206 9
|
20天前
|
人工智能 JSON 自然语言处理
VTJ.PRO 架构首度揭秘:40 + 工具加持,AI 如何从 “嘴强王者” 变身 “代码执行者”?
VTJ.PRO采用“Agent+Skills”智能体架构,让AI从聊天机器人升级为能主动思考、调用40+开发技能的“开发搭档”。通过分层管道实现多模态输入理解、增量代码更新、流式推理与多模型协同决策,提升效率200%,准确率达98.7%。
120 20
|
1月前
|
存储 弹性计算 人工智能
阿里云服务器一年多少钱?ECS和轻量2026 价格表 + 新老用户优惠全汇总
2024年双十一期间,阿里云推出多款优惠云服务器配置。轻量应用服务器2核2G、3M带宽、50GB ESSD云盘,仅需36元/年;云服务器ECS 2核2G、3M带宽、40GB ESSD Entry云盘,99元/年;ECS u1实例2核4G、5M带宽、80GB ESSD Entry盘,199元/年。更多配置详见官网。
313 9

热门文章

最新文章