Linux线上服务器问题排查

简介: Linux线上服务器问题排查

1 线上服务器CPU 100%了!该怎么排查、定位和解决?

线上服务器的cpu使用达到100%了,如何排查、定位和解决该问题?

如果是大数据的经常的内存溢出或者高并发,话说实话,这个问题是面试的时候,聊基础,最常问的一个问题,就是看看你有没有处理过高负载的线上问题场景。所以很多大公司考察你的基本功,肯定会问这个。其实这个你干过就是干过,掌握就是掌握,只要干过,所有人都是一样的步骤,没区别。

其实核心思路,就是找到这台服务器上,是哪个进程的哪个线程的哪段代码,导致cpu 100了,主要就是考察你是否熟练运用一些线上的命令。

这里我可以给大家说一个我们线上的经验,就是之前有一个bug,是一个很年轻的同学写的,就是我们当时是定了异常日志是写到es里去的

public void log(String message) {
    try {
    // 往es去写
    } catch(Exception e) {
        log(message);
    }
}

线上事故,es集群出了点问题,没法写,最后出现线上几十台机器,全部因为这一行代码,全体cpu 100%,卡死了

1.1 定位耗费cpu的进程

top -c,就可以显示进程列表,然后输入P,按照cpu使用率排序,你会看到类似下面的东西

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
43987 root 20 0 28.2g 4.5g 68m S 99.0 24.0 44333.4 java -Xms。。。

大概类似上面这样,能看到哪个进程,CPU负载最高,还有启动这个进程的命令,比如一般就是java啥啥的。

1.2 定位耗费cpu的线程

top -Hp 43987,就是输入那个进程id就好了,然后输入P,按照cpu使用率排序,你会看到类似下面的东西

大概类似上面那样,你就可以看到这个进程里的哪个线程耗费cpu最高

1.3 定位哪段代码导致的cpu过高

printf “%x\n” 16872,把线程pid转换成16进制,比如41e8

jstack 43987 | grep ‘0x41e8’ -C5 --color

这个就是用jstack打印进程的堆栈信息,而且通过grep那个线程的16进制的pid,找到那个线程相关的东西,这个时候就可以在打印出的代码里,看到是哪个类的哪个方法导致的这个cpu 100%的问题

2 线上机器的一个进程用kill命令杀不死该怎么办?磁盘空间快满了又该怎么处理?

2.1 线上进程kill不掉怎么办

线上进程kill不掉怎么办

但是可能就是想考察一下你有没有处理过类似的问题

我们公司有一套自己研发的发布系统,你每次部署,都是走发布系统,告诉他一个git仓库的地址,那个系统会自动从git仓库拉取代码,基于maven来打包,你还可以指定你要用的profile,maven打包的时候会用对应的profile打对应环境的包,打完jar包之后,就会java -jar之类的来启动。

当时那个发布系统,他自己在每台机器上有一个进程,发布和启动的时候,他启动的那个进程,不是直接java -jar来启动的,发布系统的一个进程搞了一个子进程,子进程是我们的系统进程。

这个其实就是线上可能遇到的一个问题,我们之前确实就是遇到过这个问题,kill一个进程死活杀不死,那个进程成了僵尸进程,就是zombie状态。这是因为这个进程释放了资源,但是没有得到父进程的确认。

ps aux,看看STAT那一栏,如果是Z,那么就是zombie状态的僵尸进程

ps -ef | grep 僵尸进程id,可以找到父进程id

然后先kill掉父进程即可

2.2 存储空间快满

服务器存储空间快满了(95%),还有一个小时存储就满了,在不影响服务正常运行的情况下,该如何解决?

这个确实没什么好说的,无非就是用一些一些线上的场景和问题来考考你平时一般怎么处理的,线上机器磁盘满,一般啥原因,不就是日志太多了给写满了么。对吧,我们不说别的,就说说这最基本的就行了

df -h,先看看磁盘使用的情况

然后就是到你的系统部署的地方,一般就是tomcat下的日志、spring boot的日志,去看看,如果过多,就删除掉一些日志就行了,自己注意让tomcat或者nginx之类的日志输出,按天切割,这样你还可以写个shell脚本,crontab定时,定期删除7天以前的日志

要是不行,那就:find / -size +100M |xargs ls -lh,找找大于100m的文件,但是如果有大量的小文件,那么这样是不行的

或者是用:du -h >fs_du.log看看各个目录占用的磁盘空间大小,看看是不是哪个目录有大量的小文件

其实面试官无非就是看看是不是知道常见的命令罢了,如果不是。那那个面试官就得再提示多一些细节,到底要考察你什么。但是简单问一个磁盘占用排查,就是常见这几个命令罢了

3 挖矿木马

如果看到cpu一直居高不下,进程很奇怪也不是java服务引起,就有可能被人种植木马了,简单说下,最好不要将常用端口进行放开或者将常用端口更换,因为注入扫描就是扫描比如3306可以更换为13306,如果是阿里云这种的要做到一个定期备份防止无法根除木马而回复或者被攻击瘫痪快速恢复.遇到后不要慌张,先去吧登录账号和密码修改,之后定位问题解决问题.就和杀毒的一样找到进程找到文件关闭定时任务干掉即可.

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
6天前
|
运维 监控 Linux
推荐几个不错的 Linux 服务器管理工具
推荐几个不错的 Linux 服务器管理工具
W9
|
2月前
|
运维 关系型数据库 MySQL
轻松管理Linux服务器的5个优秀管理面板
Websoft9 应用管理平台,github 2k star 开源软件,既有200+的优秀开源软件商店,一键安装。又有可视化的Linux管理面板,文件、数据库、ssl证书方便快捷管理。
W9
109 1
|
2月前
|
缓存 Ubuntu Linux
Linux环境下测试服务器的DDR5内存性能
通过使用 `memtester`和 `sysbench`等工具,可以有效地测试Linux环境下服务器的DDR5内存性能。这些工具不仅可以评估内存的读写速度,还可以检测内存中的潜在问题,帮助确保系统的稳定性和性能。通过合理配置和使用这些工具,系统管理员可以深入了解服务器内存的性能状况,为系统优化提供数据支持。
46 4
|
2月前
|
运维 监控 Linux
服务器管理面板大盘点: 8款开源面板助你轻松管理Linux服务器
在数字化时代,服务器作为数据存储和计算的核心设备,其管理效率与安全性直接关系到业务的稳定性和可持续发展。随着技术的不断进步,开源社区涌现出众多服务器管理面板,这些工具以其强大的功能、灵活的配置和友好的用户界面,极大地简化了Linux服务器的管理工作。本文将详细介绍8款开源的服务器管理面板,包括Websoft9、宝塔、cPanel、1Panel等,旨在帮助运维人员更好地选择和使用这些工具,提升服务器管理效率。
|
29天前
|
存储 Oracle 安全
服务器数据恢复—LINUX系统删除/格式化的数据恢复流程
Linux操作系统是世界上流行的操作系统之一,被广泛用于服务器、个人电脑、移动设备和嵌入式系统。Linux系统下数据被误删除或者误格式化的问题非常普遍。下面北亚企安数据恢复工程师简单聊一下基于linux的文件系统(EXT2/EXT3/EXT4/Reiserfs/Xfs) 下删除或者格式化的数据恢复流程和可行性。
|
2月前
|
安全 Linux API
Linux服务器安全
人们常误认为服务器因存于数据中心且数据持续使用而无需加密。然而,当驱动器需维修或处理时,加密显得尤为重要,以防止数据泄露。Linux虽有dm-crypt和LUKS等内置加密技术,但在集中管理、根卷加密及合规性等方面仍存不足。企业应选择具备强大验证、简单加密擦除及集中管理等功能的解决方案,以弥补这些缺口。
30 0
|
2月前
|
Linux 网络安全 数据安全/隐私保护
Linux 超级强大的十六进制 dump 工具:XXD 命令,我教你应该如何使用!
在 Linux 系统中,xxd 命令是一个强大的十六进制 dump 工具,可以将文件或数据以十六进制和 ASCII 字符形式显示,帮助用户深入了解和分析数据。本文详细介绍了 xxd 命令的基本用法、高级功能及实际应用案例,包括查看文件内容、指定输出格式、写入文件、数据比较、数据提取、数据转换和数据加密解密等。通过掌握这些技巧,用户可以更高效地处理各种数据问题。
138 8
|
2月前
|
监控 Linux
如何检查 Linux 内存使用量是否耗尽?这 5 个命令堪称绝了!
本文介绍了在Linux系统中检查内存使用情况的5个常用命令:`free`、`top`、`vmstat`、`pidstat` 和 `/proc/meminfo` 文件,帮助用户准确监控内存状态,确保系统稳定运行。
555 6
|
2月前
|
Linux
在 Linux 系统中,“cd”命令用于切换当前工作目录
在 Linux 系统中,“cd”命令用于切换当前工作目录。本文详细介绍了“cd”命令的基本用法和常见技巧,包括使用“.”、“..”、“~”、绝对路径和相对路径,以及快速切换到上一次工作目录等。此外,还探讨了高级技巧,如使用通配符、结合其他命令、在脚本中使用,以及实际应用案例,帮助读者提高工作效率。
104 3
|
29天前
|
Linux Shell
Linux 10 个“who”命令示例
Linux 10 个“who”命令示例
53 14
Linux 10 个“who”命令示例

热门文章

最新文章