一、内存性能指标
已用内存、剩余内存、共享内存、可用内存、缓存和缓冲区的用量。
共享内存是通过 tmpfs 实现的,所以它的大小也就是 tmpfs 使用的内存大小。tmpfs其实也是一种特殊的缓存
缓存分两部分:
- 读取文件的页缓存,用来缓存从磁盘读取的数据,可以加快以后再次访问的速度
- Slab 分配器中的可回收内存
缓冲区:对原始磁盘块的临时存储,用来缓存将要写入磁盘的数据。这样,内核就可以把分散的写集中起来,统一优化磁盘写入
缓存和缓冲区,就属于可回收内存。它们在内存管理中,通常被叫做文件页(File-backed Page),内存映射获取的文件映射页,也是一种常见的文件页。它也可以被释放掉,下次再访问的时候,从文件重新读取
二、进程内存的使用
虚拟内存、常驻内存、共享内存以及 Swap 内存
1、虚拟内存
进程代码段、数据段、共享内存、已经申请的堆内存和已经换出的内存等。这里要注意,已经申请的内存,即使还没有分配物理内存,也算作虚拟内存。
2、常驻内存
实际使用的物理内存,注意不包括共享内存和swap。
常驻内存一般会换算成占系统总内存的百分比,也就是进程的内存使用率
3、共享内存
既包括与其他进程共同使用的真实的共享内存,还包括了加载的动态链接库以及程序的代码段
4、swap内存
Swap 换出到磁盘的内存
5、缺页异常
系统调用内存分配请求后,并不会立刻为其分配物理内存,而是在请求首次访问时,通过缺页异常来分配,注意这并不是内存异常,翻译的缘故吧 英文是page fault
- 直接从物理内存中分配时,被称为次缺页异常
- 需要磁盘 I/O 介入(比如 Swap)时,被称为主缺页异常
主缺页异常升高,就意味着需要磁盘 I/O,那么内存访问也会慢很多
三、工具
四、迅速分析内存的性能瓶颈
当你看到系统的剩余内存很低时,是不是就说明,进程一定不能申请分配新内存了呢?当然不是,因为进程可以使用的内存,除了剩余内存,还包括了可回收的缓存和缓冲区。
为了迅速定位内存问题,我通常会先运行几个覆盖面比较大的性能工具,比如
free、top、vmstat、pidstat 等。
- 先用 free 和 top,查看系统整体的内存使用情况。
- 再用 vmstat 和 pidstat,查看一段时间的趋势,从而判断出内存问题的类型。
- 最后进行详细分析,比如内存分配分析、缓存 / 缓冲区分析、具体进程的内存使用分析等。
1、思路逻辑图
1、通过 free,发现大部分内存都被缓存占用后,可以使用 vmstat 或者 sar观察一下缓存的变化趋势,确认缓存的使用是否还在继续增大
如果继续增大,则说明导致缓存升高的进程还在运行,那你就能用缓存 / 缓冲区分析工具(比如 cachetop、slabtop 等),分析这些缓存到底被哪里占用
2、当你 free 一下,发现系统可用内存不足时,首先要确认内存是否被缓存 / 缓冲区占用。排除缓存 / 缓冲区后,你可以继续用 pidstat 或者 top,定位占用内存最多的进程。
找出进程后,再通过进程内存空间工具(比如 pmap),分析进程地址空间中内存的使用情况
3、当你通过 vmstat 或者 sar 发现内存在不断增长后,可以分析中是否存在内存泄漏的问题
内存分配分析工具 memleak ,检查是否存在内存泄漏。如果存在内存泄漏问题,memleak 会为你输出内存泄漏的进程以及调用堆栈
2、优化思路
1. 最好禁止 Swap。如果必须开启 Swap,降低 swappiness 的值,减少内存回收时Swap 的使用倾向。
2. 减少内存的动态分配。比如,可以使用内存池、大页(HugePage)等。
3. 尽量使用缓存和缓冲区来访问数据。比如,可以使用堆栈明确声明内存空间,来存储需要缓存的数据;或者用 Redis 这类的外部缓存组件,优化数据的访问。
4. 使用 cgroups 等方式限制进程的内存使用情况。这样,可以确保系统内存不会被异常进程耗尽。
5. 通过 /proc/pid/oom_adj ,调整核心应用的 oom_score。这样,可以保证即使内存紧张,核心应用也不会被 OOM 杀死。