Linux线上服务器问题排查

简介: Linux线上服务器问题排查

1 线上服务器CPU 100%了!该怎么排查、定位和解决?

线上服务器的cpu使用达到100%了,如何排查、定位和解决该问题?

如果是大数据的经常的内存溢出或者高并发,话说实话,这个问题是面试的时候,聊基础,最常问的一个问题,就是看看你有没有处理过高负载的线上问题场景。所以很多大公司考察你的基本功,肯定会问这个。其实这个你干过就是干过,掌握就是掌握,只要干过,所有人都是一样的步骤,没区别。

其实核心思路,就是找到这台服务器上,是哪个进程的哪个线程的哪段代码,导致cpu 100了,主要就是考察你是否熟练运用一些线上的命令。

这里我可以给大家说一个我们线上的经验,就是之前有一个bug,是一个很年轻的同学写的,就是我们当时是定了异常日志是写到es里去的

public void log(String message) {
    try {
    // 往es去写
    } catch(Exception e) {
        log(message);
    }
}

线上事故,es集群出了点问题,没法写,最后出现线上几十台机器,全部因为这一行代码,全体cpu 100%,卡死了

1.1 定位耗费cpu的进程

top -c,就可以显示进程列表,然后输入P,按照cpu使用率排序,你会看到类似下面的东西

PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
43987 root 20 0 28.2g 4.5g 68m S 99.0 24.0 44333.4 java -Xms。。。

大概类似上面这样,能看到哪个进程,CPU负载最高,还有启动这个进程的命令,比如一般就是java啥啥的。

1.2 定位耗费cpu的线程

top -Hp 43987,就是输入那个进程id就好了,然后输入P,按照cpu使用率排序,你会看到类似下面的东西

大概类似上面那样,你就可以看到这个进程里的哪个线程耗费cpu最高

1.3 定位哪段代码导致的cpu过高

printf “%x\n” 16872,把线程pid转换成16进制,比如41e8

jstack 43987 | grep ‘0x41e8’ -C5 --color

这个就是用jstack打印进程的堆栈信息,而且通过grep那个线程的16进制的pid,找到那个线程相关的东西,这个时候就可以在打印出的代码里,看到是哪个类的哪个方法导致的这个cpu 100%的问题

2 线上机器的一个进程用kill命令杀不死该怎么办?磁盘空间快满了又该怎么处理?

2.1 线上进程kill不掉怎么办

线上进程kill不掉怎么办

但是可能就是想考察一下你有没有处理过类似的问题

我们公司有一套自己研发的发布系统,你每次部署,都是走发布系统,告诉他一个git仓库的地址,那个系统会自动从git仓库拉取代码,基于maven来打包,你还可以指定你要用的profile,maven打包的时候会用对应的profile打对应环境的包,打完jar包之后,就会java -jar之类的来启动。

当时那个发布系统,他自己在每台机器上有一个进程,发布和启动的时候,他启动的那个进程,不是直接java -jar来启动的,发布系统的一个进程搞了一个子进程,子进程是我们的系统进程。

这个其实就是线上可能遇到的一个问题,我们之前确实就是遇到过这个问题,kill一个进程死活杀不死,那个进程成了僵尸进程,就是zombie状态。这是因为这个进程释放了资源,但是没有得到父进程的确认。

ps aux,看看STAT那一栏,如果是Z,那么就是zombie状态的僵尸进程

ps -ef | grep 僵尸进程id,可以找到父进程id

然后先kill掉父进程即可

2.2 存储空间快满

服务器存储空间快满了(95%),还有一个小时存储就满了,在不影响服务正常运行的情况下,该如何解决?

这个确实没什么好说的,无非就是用一些一些线上的场景和问题来考考你平时一般怎么处理的,线上机器磁盘满,一般啥原因,不就是日志太多了给写满了么。对吧,我们不说别的,就说说这最基本的就行了

df -h,先看看磁盘使用的情况

然后就是到你的系统部署的地方,一般就是tomcat下的日志、spring boot的日志,去看看,如果过多,就删除掉一些日志就行了,自己注意让tomcat或者nginx之类的日志输出,按天切割,这样你还可以写个shell脚本,crontab定时,定期删除7天以前的日志

要是不行,那就:find / -size +100M |xargs ls -lh,找找大于100m的文件,但是如果有大量的小文件,那么这样是不行的

或者是用:du -h >fs_du.log看看各个目录占用的磁盘空间大小,看看是不是哪个目录有大量的小文件

其实面试官无非就是看看是不是知道常见的命令罢了,如果不是。那那个面试官就得再提示多一些细节,到底要考察你什么。但是简单问一个磁盘占用排查,就是常见这几个命令罢了

3 挖矿木马

如果看到cpu一直居高不下,进程很奇怪也不是java服务引起,就有可能被人种植木马了,简单说下,最好不要将常用端口进行放开或者将常用端口更换,因为注入扫描就是扫描比如3306可以更换为13306,如果是阿里云这种的要做到一个定期备份防止无法根除木马而回复或者被攻击瘫痪快速恢复.遇到后不要慌张,先去吧登录账号和密码修改,之后定位问题解决问题.就和杀毒的一样找到进程找到文件关闭定时任务干掉即可.

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
2月前
|
弹性计算 安全 Linux
阿里云服务器ECS安装宝塔Linux面板、安装网站(新手图文教程)
本教程详解如何在阿里云服务器上安装宝塔Linux面板,涵盖ECS服务器手动安装步骤,包括系统准备、远程连接、安装命令执行、端口开放及LNMP环境部署,手把手引导用户快速搭建网站环境。
|
4月前
|
Linux 网络安全 数据安全/隐私保护
使用Linux系统的mount命令挂载远程服务器的文件夹。
如此一来,你就完成了一次从你的Linux发车站到远程服务器文件夹的有趣旅行。在这个技术之旅中,你既探索了新地方,也学到了如何桥接不同系统之间的距离。
563 21
|
3月前
|
Java Linux 网络安全
Linux云端服务器上部署Spring Boot应用的教程。
此流程涉及Linux命令行操作、系统服务管理及网络安全知识,需要管理员权限以进行配置和服务管理。务必在一个测试环境中验证所有步骤,确保一切配置正确无误后,再将应用部署到生产环境中。也可以使用如Ansible、Chef等配置管理工具来自动化部署过程,提升效率和可靠性。
358 13
|
3月前
|
监控 Linux 网络安全
FinalShell SSH工具下载,服务器管理,远程桌面加速软件,支持Windows,macOS,Linux
FinalShell是一款国人开发的多平台SSH客户端工具,支持Windows、Mac OS X和Linux系统。它提供一体化服务器管理功能,支持shell和sftp同屏显示,命令自动提示,操作便捷。软件还具备加速功能,提升访问服务器速度,适合普通用户和专业人士使用。
255 0
|
3月前
|
存储 安全 Linux
Linux服务器上安装配置GitLab的步骤。
按照以上步骤,一个基础的GitLab服务应该运行并可以使用。记得定期检查GitLab官方文档,因为GitLab的安装和配置步骤可能随着新版本而变化。
256 0
|
5月前
|
存储 安全 Ubuntu
从Linux到Windows:阿里云服务器系统镜像适配场景与选择参考
阿里云为用户提供了丰富多样的服务器操作系统选择,以满足不同场景下的应用需求。目前,云服务器的操作系统镜像主要分为公共镜像、自定义镜像、共享镜像、镜像市场和社区镜像五大类。以下是对这些镜像类型的详细介绍及选择云服务器系统时需要考虑的因素,以供参考。
|
4月前
|
Linux
Linux下版本控制器(SVN) -服务器端环境搭建步骤
Linux下版本控制器(SVN) -服务器端环境搭建步骤
213 0
Linux下版本控制器(SVN) -服务器端环境搭建步骤
|
5月前
|
数据挖掘 Linux 数据库
服务器数据恢复—Linux系统服务器数据恢复案例
服务器数据恢复环境: linux操作系统服务器中有一组由4块SAS接口硬盘组建的raid5阵列。 服务器故障: 服务器工作过程中突然崩溃。管理员将服务器操作系统进行了重装。 用户方需要恢复服务器中的数据库、办公文档、代码文件等。
|
弹性计算 运维 监控
ECS使用与Linux环境搭建
本文主要记录ECS使用中,安全组配置,Linux下生成环境搭建等。
ECS使用与Linux环境搭建
|
12天前
|
弹性计算 运维 安全
阿里云轻量应用服务器详解——2025升级到200M峰值带宽
阿里云轻量应用服务器(Simple Application Server)是面向个人开发者及中小企业的轻量级云服务,适用于网站搭建、开发测试、小程序后端等场景。2025年升级至200M峰值带宽,支持WordPress、宝塔面板、Docker等应用镜像一键部署,操作简单,运维便捷。按套餐售卖,不支持自定义CPU内存配置,价格低至38元/年起,是快速上云的高性价比选择。

热门文章

最新文章