线上机器 swap 过高导致告警

简介: 线上机器 swap 过高导致告警

哈喽大家好,我是咸鱼。

今天收到了一个告警,说有台服务器上的 swap 过高,已经用了 50% 以上了。
swap 使用率超过 50%

登录机器查看一下内存以及 swap 的使用情况。

[root@localhost ~]# free -h
total        used        free      shared  buff/cache   available
Mem:    62G         27G        2.9G        568M         32G         33G
swap:   16G        8.3G        8.1G

可以看到还有 2.9G 的空闲物理内存,但是系统已经开始使用 swap 了,初步判断是机器上面的程序内存需求比较大,但物理内存不够用所以开始使用 swap 来存储部分数据。

什么是 swap

swap 顾名思义指的是 Linux 上的交换分区,有点像 Windows 的虚拟内存,说白了就是把一块磁盘空间或者一个本地文件当成内存来使用

在早期内存价格昂贵的时代,swap 的出现解决了物理内存不足导致无法运行程序的问题。

swap 包含换出和换入两个过程:

  • 换出:把进程暂时不用的内存数据存储到磁盘中,并释放这些数据占用的内存。
  • 换入:进程再次访问这些内存数据时,把它们从磁盘读到内存来。

那现在随着内存越来越便宜,服务器上面的内存也越来越大,swap 是不是就没啥作用了呢?

不是的,对于程序来说,内存再大也有不够用的时候。比如说内存不足的时候,有些程序不希望被 OOM 杀死,而是希望等待一段时间让人工来处理,或者等系统自动释放其他进程的内存之后再分配给它。

又比如我们常见的笔记本电脑的休眠和快速开机的功能确实是基于 swap 的。在休眠时,操作系统会将当前内存的状态保存到交换空间或者称为休眠文件中,然后关闭计算机。当再次开机时,系统可以直接从休眠文件中恢复内存状态,而不需要重新加载应用程序和初始化系统,从而实现了快速开机的功能。

在 Linux 中,/proc/sys/vm/swappiness 用来调整使用 swap 的积极程度。swappiness 的范围是 0-100,数值越大,越积极使用 swap。一般来讲默认值是 60 。

需要注意的是:这个范围是 swap 积极程度的权重,即使我们设置成 0,在某些情况下(例如进程可用内存耗尽了)还是会使用 swap 的。

排查过程

首先我们来看下 swap 的积极程度。

[root@localhost ~]# cat /proc/sys/vm/swappiness
60

swappiness 显示的是默认值 60,这是一个相对中和的配置,所以系统会根据实际情况来选择是回收可用缓存以增加可用内存空间,还是使用交换空间来增加可用内存空间。

接下来我们要找出是哪些进程使用到了 swap。在 Linux 中,可以用 proc 文件系统来查看进程 swap 换出的虚拟内存大小,它保存在 /proc/pid/status 的 Vmswap 字段中。

但是一台服务器中有这么多进程,一个一个找太麻烦了,所以我们可以使用下面的命令来找出当前系统中 swap 占用最大的几个进程,并列出它们的进程号、进程名和 swap 大小。

[root@localhost ~]# for file in /proc/*/status ; do awk '/Vmswap|Name|^Pid/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 3 -n -r | head
java 153707 3245376 kB
java 153544 1757916 kB
java 172612 732100 kB
java 323072 339756 kB
java 172807 161988 kB
  1. for file in /proc/*/status ; do ... done:这是一个 for 循环,它遍历了 /proc 目录下的所有子目录,每个子目录都包含一个名为 status 的文件,其中包含了该进程的一些状态信息。
  2. awk '/VmSwap|Name|^Pid/{printf $2 " " $3}END{ print ""}' $file:对于每个 /proc/*/status 文件,awk 命令用于匹配 VmSwapName 或者 Pid 这几个关键字,并输出它们的值。这些关键字分别表示交换空间、进程名和进程号。
  3. sort -k 3 -n -r:对输出的结果进行排序。-k 3 表示按第三列进行排序,即按照交换空间大小排序;-n 表示按照数字顺序排序;-r 表示逆序排序,即从大到小排序。
  4. head -5:输出排序后的前5行。

从输出的结果可以看到,使用 swap 比较多的是 java 进程。

如何解决

在定位到是哪些进程使用 swap 比较高之后,我们找到对应的开发同事进行讨论,最后决定把 swap 关掉。通常来讲,降低 swap 的使用,可以提高系统的整体性能。

一方面是因为频繁地进行 swap 操作,会导致大量的磁盘读写操作,降低系统的响应速度和整体性能。

另一方面是因为频繁地将数据从内存交换到 swap 空间,并在需要时再次交换回来时,会增加 CPU 和内存的负担。

如何关闭 swap ?

首先使用 swapoff 命令关闭当前正在使用的交换空间。

[root@localhost ~]# swapoff -a

然后我们看下 swap 空间是否已经关闭,如果输出为空则表示 swap 成功关闭。

[root@localhost ~]# cat /proc/swaps

需要注意的是,前面的 swap 关闭操作只是临时关闭,如果机器重启是会重新开启 swap 的。

所以为了下一次重启机器后 swap 还是关闭状态我们还要编辑 /etc/fstab 文件,将其中关于 swap 的配置注释掉或者删除掉。

# 找到以 swap 标识的行,然后注释
[root@localhost ~]# vim /etc/fstab
# /dev/mapper/centos-swap swap                    swap

这样如果机器后面要是重启了,swap 依旧是关闭状态。

相关文章
|
1月前
|
设计模式 监控 安全
如何定位当生产环境CPU飙升的时候的问题
在当今的信息化时代,计算机系统在各行各业都发挥着重要的作用。然而,当生产环境中的CPU飙升时,系统性能会受到影响,甚至导致整个系统瘫痪。这不仅会对企业造成经济损失,还会对用户体验造成严重影响。因此,如何定位并解决生产环境中CPU飙升的问题,已成为众多企业和开发人员亟待解决的问题之一。本文旨在探讨如何定位生产环境中CPU飙升的问题,并提供相应的解决方案。通过了解CPU飙升的原因、定位方法以及解决方案,企业和开发人员可以更好地应对生产环境中出现的CPU飙升问题,提高系统性能和用户体验。
96 1
|
1月前
|
监控 测试技术
【亮剑】理解CPU负载对服务器稳定性的重要性,并提供了诊断和解决CPU负载过高问题的步骤
【4月更文挑战第30天】本文阐述了理解CPU负载对服务器稳定性的重要性,并提供了诊断和解决CPU负载过高问题的步骤:1) 使用监控工具分析CPU使用率和系统负载;2) 深入排查运行队列、进程占用、系统调用和硬件状态;3) 根据排查结果进行代码优化、调整进程优先级或限制CPU使用率,必要时升级硬件。建议建立监控体系,定期性能测试,并持续优化以保证服务器高效运行。
|
1月前
|
SQL 运维 NoSQL
【Redis 故障排查】「连接失败问题排查和解决」带你总体分析CPU及内存的使用率高问题排查指南及方案
【Redis 故障排查】「连接失败问题排查和解决」带你总体分析CPU及内存的使用率高问题排查指南及方案
73 0
|
10月前
|
监控 Java
【线上问题排查】CPU100%和内存100%排查
【线上问题排查】CPU100%和内存100%排查
134 1
|
11月前
|
Java
精准定位Java应用CPU负载过高问题
trace指令能追踪调用链路,而Springmvc应用都是借助于:javax.servlet.Servlet * 执行的 watch指令能够实时监测指定方法的:返回值,抛出异常,入参,同时支持OGNL操作
89 1
|
监控 NoSQL Java
【线上问题】服务CPU彪高排查
后端程序员出去面试经常会有面试官喜欢问你有没有排查过线上问题,遇到后怎么排查的。
467 0
【线上问题】服务CPU彪高排查
|
缓存 运维 监控
如何通过一系列步骤来诊断和解决服务器CPU负载过高问题?
如何通过一系列步骤来诊断和解决服务器CPU负载过高问题?
612 0
|
运维 监控 Shell
磁盘占用高生产故障复盘总结
磁盘占用高生产故障复盘总结
232 0
|
Java
面试拆解:系统上线后Cpu使用率飙升如何排查?
面试拆解:系统上线后Cpu使用率飙升如何排查?
120 0
|
SQL 缓存 负载均衡
线上cpu报警的一次接口优化
春天到了大地都复苏了,沉寂了很久的cpu也开始慢慢复苏了,所谓前人埋坑后人填坑,伴随着阿里云监控报警,线上CPU使用率暴增,于是就开始了排查之路。