线上机器 swap 过高导致告警-阿里云开发者社区

线上机器 swap 过高导致告警

2024-03-13 24

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 线上机器 swap 过高导致告警

哈喽大家好，我是咸鱼。

今天收到了一个告警，说有台服务器上的 swap 过高，已经用了 50% 以上了。
swap 使用率超过 50%

登录机器查看一下内存以及 swap 的使用情况。

[root@localhost ~]# free -h
total        used        free      shared  buff/cache   available
Mem:    62G         27G        2.9G        568M         32G         33G
swap:   16G        8.3G        8.1G

可以看到还有 2.9G 的空闲物理内存，但是系统已经开始使用 swap 了，初步判断是机器上面的程序内存需求比较大，但物理内存不够用所以开始使用 swap 来存储部分数据。

什么是 swap

swap 顾名思义指的是 Linux 上的交换分区，有点像 Windows 的虚拟内存，说白了就是把一块磁盘空间或者一个本地文件当成内存来使用。

在早期内存价格昂贵的时代，swap 的出现解决了物理内存不足导致无法运行程序的问题。

swap 包含换出和换入两个过程：

换出：把进程暂时不用的内存数据存储到磁盘中，并释放这些数据占用的内存。
换入：进程再次访问这些内存数据时，把它们从磁盘读到内存来。

那现在随着内存越来越便宜，服务器上面的内存也越来越大，swap 是不是就没啥作用了呢？

不是的，对于程序来说，内存再大也有不够用的时候。比如说内存不足的时候，有些程序不希望被 OOM 杀死，而是希望等待一段时间让人工来处理，或者等系统自动释放其他进程的内存之后再分配给它。

又比如我们常见的笔记本电脑的休眠和快速开机的功能确实是基于 swap 的。在休眠时，操作系统会将当前内存的状态保存到交换空间或者称为休眠文件中，然后关闭计算机。当再次开机时，系统可以直接从休眠文件中恢复内存状态，而不需要重新加载应用程序和初始化系统，从而实现了快速开机的功能。

在 Linux 中，/proc/sys/vm/swappiness 用来调整使用 swap 的积极程度。swappiness 的范围是 0-100，数值越大，越积极使用 swap。一般来讲默认值是 60 。

需要注意的是：这个范围是 swap 积极程度的权重，即使我们设置成 0，在某些情况下（例如进程可用内存耗尽了）还是会使用 swap 的。

排查过程

首先我们来看下 swap 的积极程度。

[root@localhost ~]# cat /proc/sys/vm/swappiness
60

swappiness 显示的是默认值 60，这是一个相对中和的配置，所以系统会根据实际情况来选择是回收可用缓存以增加可用内存空间，还是使用交换空间来增加可用内存空间。

接下来我们要找出是哪些进程使用到了 swap。在 Linux 中，可以用 proc 文件系统来查看进程 swap 换出的虚拟内存大小，它保存在 /proc/pid/status 的 Vmswap 字段中。

但是一台服务器中有这么多进程，一个一个找太麻烦了，所以我们可以使用下面的命令来找出当前系统中 swap 占用最大的几个进程，并列出它们的进程号、进程名和 swap 大小。

[root@localhost ~]# for file in /proc/*/status ; do awk '/Vmswap|Name|^Pid/{printf $2 " " $3}END{ print ""}' $file; done | sort -k 3 -n -r | head

java 153707 3245376 kB
java 153544 1757916 kB
java 172612 732100 kB
java 323072 339756 kB
java 172807 161988 kB

for file in /proc/*/status ; do ... done：这是一个 for 循环，它遍历了 /proc 目录下的所有子目录，每个子目录都包含一个名为 status 的文件，其中包含了该进程的一些状态信息。
awk '/VmSwap|Name|^Pid/{printf $2 " " $3}END{ print ""}' $file：对于每个 /proc/*/status 文件，awk 命令用于匹配 VmSwap、Name 或者 Pid 这几个关键字，并输出它们的值。这些关键字分别表示交换空间、进程名和进程号。
sort -k 3 -n -r：对输出的结果进行排序。-k 3 表示按第三列进行排序，即按照交换空间大小排序；-n 表示按照数字顺序排序；-r 表示逆序排序，即从大到小排序。
head -5：输出排序后的前5行。

从输出的结果可以看到，使用 swap 比较多的是 java 进程。

如何解决

在定位到是哪些进程使用 swap 比较高之后，我们找到对应的开发同事进行讨论，最后决定把 swap 关掉。通常来讲，降低 swap 的使用，可以提高系统的整体性能。

一方面是因为频繁地进行 swap 操作，会导致大量的磁盘读写操作，降低系统的响应速度和整体性能。

另一方面是因为频繁地将数据从内存交换到 swap 空间，并在需要时再次交换回来时，会增加 CPU 和内存的负担。

如何关闭 swap ？

首先使用 swapoff 命令关闭当前正在使用的交换空间。

[root@localhost ~]# swapoff -a

然后我们看下 swap 空间是否已经关闭，如果输出为空则表示 swap 成功关闭。

[root@localhost ~]# cat /proc/swaps

需要注意的是，前面的 swap 关闭操作只是临时关闭，如果机器重启是会重新开启 swap 的。

所以为了下一次重启机器后 swap 还是关闭状态我们还要编辑 /etc/fstab 文件，将其中关于 swap 的配置注释掉或者删除掉。

# 找到以 swap 标识的行，然后注释
[root@localhost ~]# vim /etc/fstab
# /dev/mapper/centos-swap swap                    swap

这样如果机器后面要是重启了，swap 依旧是关闭状态。

线上机器 swap 过高导致告警

什么是 swap

排查过程

如何解决

热门文章

最新文章

相关课程

相关电子书

相关实验场景