系统监控
proc文件系统
proc文件系统是一种无存储的文件系统,当读其中的文件时,其内容动态生成,当写文件时,文件所关联的写函数被调用。内核部件可以通过该文件系统向用户空间提供接口来提供查询信息、修改软件行为,因而它是一种比较重要的特殊文件系统。
大致包含了如下信息: 内存管理 每个进程的相关信息 文件系统 设备驱动程序 系统总线 电源管理 终端 系统控制参数 网络 和整个Linux系统相关的参数如下: /proc/cmdline 加载kernel时的相关指令与参数 /proc/cpuinfo CPU相关信息,包含频率、类型与运算功能 /proc/devices 记录了系统各个主要设备的主设备号码 /proc/filesystems 记录系统加载的文件系统 /proc/loadavg 平均负载值 top看到就是这个 /proc/meminfo 内存信息,free命令看到就是这个 /proc/modules 系统已经加载的模块 /proc/mounts 系统已经挂载的数据 mount看到就是这个数据 /proc/partitions 系统的分区文件 /proc/version 系统的核心版本 uname -a看到的内容
常见系统监视命令
1.uptime
打印系统总共运行了多长时间和系统的平均负载
16:43:12 up 1:54, 3 users, load average: 0.00, 0.01, 0.05
系统时间 开机时长 登录用户数 系统在过去的1分钟、5分钟和15分钟内的平均负载
2.free -h
可以显示当前系统未使用的和已使用的内存数目,还可以显示被内核使用的内存缓冲区
[root@localhost proc]# free -h total used free shared buff/cache available Mem: 976M 77M 768M 7.3M 130M 749M Swap: 2.0G 0B 2.0G 参数: Mem:内存 Swap:交换分区 total:总数,全部 used:使用占比 free:剩余占比 shared:共享 buff/cache:缓存 available:总剩余空间
案例:计算内存使用率
MUG=$(expr $(free | grep "Mem" | awk '{print $3}') \* 100 / $(free | grep "Mem:" | awk '{print $2}'))
3.vmstat
Linux/Unix监控工具,含义为显示虚拟内存状态(“VirtualMemory Statistics”),但也可以
展现给定时间间隔的服务器的状态值,包括服务器的CPU使用率,内存使用,虚拟内存交换情况,
IO读写情况。
参数: -V:显示vmstat版本信息 -n:只在开始时显示一次各字段名称 -a:显示活跃和非活跃内存 -d:显示各个磁盘相关统计信息 -D:显示磁盘总体信息 -p:显示指定磁盘分区统计信息 -s:显示内存相关统计信息及多种系统活动数量 -m:显示slabinfo -t:在输出信息的时候也将时间一并输出出来 -S:使用指定单位显示。参数有k、K、m、M,默认单位为K delay:刷新时间间隔。如果不指定,只显示一条结果 count:刷新次数。如果不指定刷新次数,但指定了刷新时间间隔,这时刷新次数为无穷
显示信息:
[root@localhost proc]# vmstat procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpd free buff cache si so bi bo in cs us sy id wa st 1 0 0 786552 876 132980 0 0 11 1 23 41 0 0 100 0 0 解释: procs 进程信息字段: -r:等待运行的进程数,数量越大,系统越繁忙。 -b:阻塞进程数量,数量越大,系统越繁忙。 查看 CPU 核心数:cat /proc/cpuinfo|grep processor|wc -l memory 内存信息字段: -swpd:虚拟内存的使用情况,单位为 KB。 -free:空闲的内存容量,单位为 KB。 -buff:缓冲的内存容量,单位为 KB。 -cache:缓存的内存容量,单位为 KB。 swap 交换分区信息字段: -si:从磁盘中交换到内存中数据的数量,单位为 KB。 -so:从内存中交换到磁盘中数据的数量,单位为 KB。 这两个数越大,表明数据需要经常在磁盘和内存之间进行交换,系统性能越差。 io 磁盘读/写信息字段: -bi:从块设备中读入的数据的总量,单位是块。 -bo:写到块设备的数据的总量,单位是块。 这两个数越大,代表系统的 I/O 越繁忙。 所谓中断就是指CPU在正常执行程序的时候,由于内部/外部事件的出发、或由程序预先设定而引起CPU暂 时中止当前正在执行的程序,保存被执行程序相关信息到栈中,转而去执行为内部/外部事件、或由程序预先设 定的事件的中断服务子程序,待执行完中断服务子程序后,CPU再获取被保存在栈中被中断的程序的信息,继续 执行被中断的程序,这一过程叫做中断。 system 系统信息字段: -in:每秒被中断的进程次数。 -cs:每秒进行的事件切换次数。 这两个数越大,代表系统与接口设备的通信越繁忙。 cpu CPU信息字段: -us:非内核进程消耗 CPU 运算时间的百分比。 -sy:内核进程消耗 CPU 运算时间的百分比。 -id:空闲 CPU 的百分比。 -wa:等待 I/O 所消耗的 CPU 百分比。 -st:被虚拟机所盗用的 CPU 百分比。 一般来说,id + us + sy = 100
日常用法:每个2秒,查询2次
vmstat -SM 2 2
4.mpstat
Multiprocessor Statistics,是实时系统监控工具。其报告与CPU的一些统计信息,这些信息存放在/proc/stat文件中。在多CPUs系统里,其不但能查看所有CPU的平均状况信息,而且能够查看特定CPU的信息。
mpstat最大的特点是:可以查看多核心cpu中每个计算核心的统计数据;而vmstat只能查看系统整体cpu情况。
1. 安装mpstat工具依赖包 2. yum install sysstat -y
运行结果:
[root@localhost proc]# mpstat Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 2022年10月25日 _x86_64_(1 CPU) 06时52分29秒 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 06时52分29秒 all 0.03 0.00 0.11 0.01 0.00 0.00 0.00 0.00 0.00 99.85 参数详解: %user 在internal时间段里,用户态的CPU时间(%),不包含nice值为负进程 (usr/total)*100 %nice 在internal时间段里,nice值为负进程的CPU时间(%) (nice/total)*100 %sys 在internal时间段里,内核时间(%) (system/total)*100 %iowait 在internal时间段里,硬盘IO等待时间(%) (iowait/total)*100 %irq 在internal时间段里,硬中断时间(%) (irq/total)*100 %soft 在internal时间段里,软中断时间(%) (softirq/total)*100 %idle 在internal时间段里,CPU除去等待磁盘IO操作外的因为任何原因而空闲的时间闲置时间(%) (idle/total)*100
日常用法:
mpstat 2 5 每2秒查看一次,共查看5次
mpstat -P ALL 2 3 查看每个cpu核心的详细当前运行状况信息
5.iostat
监视系统输入输出设备和CPU的使用情况。它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况。iostat弱点就是它不能对某个进程进行深入分析,仅对系统的整体情况进行分析。能查看到系统IO状态信息,从而确定IO性能是否存在瓶颈。
[root@localhost proc]# iostat Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 2022年10月25日 _x86_64_(1 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.03 0.00 0.11 0.01 0.00 99.86 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 0.62 21.68 1.92 225046 19972 选项: -c:仅显示CPU使用情况; -d:仅显示设备利用率; -k:显示状态以千字节每秒为单位,而不使用块每秒; -m:显示状态以兆字节每秒为单位; -p:仅显示块设备和所有被使用的其他分区的状态; -t:显示每个报告产生时的时间; -V:显示版号并退出; -x:显示扩展状态。 详细说明: 第一行是系统信息和监测时间 第二行和第三行显示CPU使用情况(具体内容和mpstat命令相同) 第四行: Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 3.56 74.96 16.91 767153 173074 tps:该设备每秒的传输次数 kB_read/s:每秒从设备(drive expressed)读取的数据量; kB_wrtn/s:每秒向设备(drive expressed)写入的数据量; kB_read:读取的总数据量; kB_wrtn:写入的总数量数据量;
6.sar
(System Activity Reporter 系统活动情况报告)是目前 Linux上最为全面的系统性能分析工具之一,可以从多方面对系统的活动进行报告,包括:文件的读写情况、系统调用的使用情况、磁盘I/O、CPU效率、内存使用状况、进程活动及IPC有关的活动等。
选项: -t为采样间隔,n为采样次数,默认值是1; -o file表示将命令结果以二进制格式存放在文件中,file 是文件名。 options 为命令行选项,sar命令常用选项如下: -A:所有报告的总和 -u:输出CPU使用情况的统计信息 -v:输出inode、文件和其他内核表的统计信息 -d:输出每一个块设备的活动信息 -r:输出内存和交换空间的统计信息 -b:显示I/O和传送速率的统计信息 -a:文件读写情况 -c:输出进程统计信息,每秒创建的进程数 -R:输出内存页面的统计信息 -y:终端设备活动情况 -w:输出系统交换活动信息
实例:
(1)CPU资源监控
每2秒采样一次,连续采样3次,观察CPU 的使用情况,结果保存到test文件(二进制)
[root@localhost ~]# sar -u -o test 2 3 Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 2022年10月25日 _x86_64_(1 CPU) 07时09分26秒 CPU %user %nice %system %iowait %steal %idle 07时09分28秒 all 0.00 0.00 0.00 0.00 0.00 100.00 07时09分30秒 all 0.00 0.00 0.50 0.00 0.00 99.50 07时09分32秒 all 0.00 0.00 0.00 0.00 0.00 100.00 平均时间: all 0.00 0.00 0.17 0.00 0.00 99.83 05:49:41 PM CPU %user %nice %system %iowait %steal %idle CPU:all 表示统计信息为所有 CPU 的平均值。 %user:显示在用户级别(application)运行使用 CPU 总时间的百分比。 %nice:显示在用户级别,用于nice操作,所占用 CPU 总时间的百分比。 %system:在核心级别(kernel)运行所使用 CPU 总时间的百分比。 %iowait:显示用于等待I/O操作占用 CPU 总时间的百分比。 %steal:管理程序(hypervisor)为另一个虚拟进程提供服务而等待虚拟CPU 的百分比。 %idle:显示 CPU 空闲时间占用 CPU 总时间的百分比。 注: %iowait 的值过高,表示硬盘存在I/O瓶颈 %idle 的值高但系统响应慢时,有可能是 CPU 等待分配内存,此时应加大内存容量 %idle 的值持续低于1,则系统的CPU处理能力相对较低,表明系统中最需要解决的资源是CPU
sar -u -f test 查看二进制文件内容
[root@localhost ~]# sar -u -f test Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 2022年10月25日 _x86_64_(1 CPU) 07时09分26秒 CPU %user %nice %system %iowait %steal %idle 07时09分28秒 all 0.00 0.00 0.00 0.00 0.00 100.00 07时09分30秒 all 0.00 0.00 0.50 0.00 0.00 99.50 07时09分32秒 all 0.00 0.00 0.00 0.00 0.00 100.00 平均时间: all 0.00 0.00 0.17 0.00 0.00 99.83
(2)inode、文件和其他内核表监控
每10秒采样一次,连续采样3次,观察核心表的状态 sar -v 10 3 dentunusd:目录高速缓存中未被使用的条目数量 file-nr:文件句柄(file handle)的使用数量 inode-nr:索引节点句柄(inode handle)的使用数量 pty-nr:使用的pty数量
(3)内存和交换空间监控
每10秒采样一次,连续采样3次,监控内存分页 sar -r 10 3 kbmemfree kbmemused %memused kbbuffers kbcached kbcommit %commit kbactive kbinact kbdirty 424292 1603612 79.08 1116 793024 3963588 96.09 913084 404904 0 kbmemfree:这个值和free命令中的free值基本一致,所以它不包括buffer和cache的空间. kbmemused:这个值和free命令中的used值基本一致,所以它包括buffer和cache的空间. %memused:这个值是kbmemused和内存总量(不包括swap)的一个百分比. kbbuffers和kbcached:这两个值就是free命令中的buffer和cache. kbcommit:保证当前系统所需要的内存,即为了确保不溢出而需要的内存(RAM+swap). %commit:这个值是kbcommit与内存总量(包括swap)的一个百分比. kbactive: 活跃内存(经常使用不回收的内存,只有在必须被需要时回收) kbinact: 不活跃内存(最近不经常使用, 更有可能回收给其他进程使用) kbdirty: 等待被写会硬盘的内存
(4)内存分页监控
每10秒采样一次,连续采样3次,监控内存分页: sar -B 10 3 pgpgin/s pgpgout/s fault/s majflt/s pgfree/s pgscank/s pgscand/s pgsteal/s %vmeff 0.00 0.00 7.40 0.00 22.70 0.00 0.00 0.00 0.00 pgpgin/s:表示每秒从磁盘或SWAP置换到内存的字节数(KB) pgpgout/s:表示每秒从内存置换到磁盘或SWAP的字节数(KB) fault/s:每秒钟系统产生的缺页数,即主缺页与次缺页之和(major +minor) majflt/s:每秒钟产生的主缺页数. pgfree/s:每秒被放入空闲队列中的页个数 pgscank/s:每秒被kswapd扫描的页个数 pgscand/s:每秒直接被扫描的页个数 pgsteal/s:每秒钟从cache中被清除来满足内存需要的页个数 %vmeff:每秒清除的页(pgsteal)占总扫描页(pgscank+pgscand)的百分比
(5)I/O和传送速率监控
每10秒采样一次,连续采样3次,报告缓冲区的使用情况 sar -b 10 3 tps rtps wtps bread/s bwrtn/s 0.00 0.00 0.00 0.00 0.00 tps:每秒钟物理设备的 I/O 传输总量 rtps:每秒钟从物理设备读入的数据总量 wtps:每秒钟向物理设备写入的数据总量 bread/s:每秒钟从物理设备读入的数据量,单位为 块/s bwrtn/s:每秒钟向物理设备写入的数据量,单位为 块/s
(6)、进程队列长度和平均负载状态监控
每10秒采样一次,连续采样3次,监控进程队列长度和平均负载状态: sar -q 10 3 runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 blocked 0 144 0.00 0.01 0.05 0 runq-sz:运行队列的长度(等待运行的进程数) plist-sz:进程列表中进程(processes)和线程(threads)的数量 ldavg-1:最后1分钟的系统平均负载(System load average) ldavg-5:过去5分钟的系统平均负载 ldavg-15:过去15分钟的系统平均负载
(7)系统交换活动信息监控
每10秒采样一次,连续采样3次,监控系统交换活动信息: sar - W 10 3 pswpin/s pswpout/s 0.00 0.00 pswpin/s:每秒系统换入的交换页面(swap page)数量 pswpout/s:每秒系统换出的交换页面(swap page)数量
(8)设备使用情况监控
每10秒采样一次,连续采样3次,报告设备使用情况,需键入如下命令: sar -d 10 3 –p DEV tps rd_sec/s wr_sec/s avgrq-sz avgqu-sz await svctm %util sda 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 参数-p可以打印出sda,hdc等磁盘设备名称,如果不用参数-p,设备节点则 有可能是dev8-0,dev22-0 tps:每秒从物理磁盘I/O的次数.多个逻辑请求会被合并为一个I/O磁盘请 求,一次传输的大小是不确定的. rd_sec/s:每秒读扇区的次数. wr_sec/s:每秒写扇区的次数. avgrq-sz:平均每次设备I/O操作的数据大小(扇区). avgqu-sz:磁盘请求队列的平均长度. await:从请求磁盘操作到系统完成处理,每次请求的平均消耗时间,包括 请求队列等待时间,单位是毫秒(1秒=1000毫秒). svctm:系统处理每次请求的平均时间,不包括在请求队列中消耗的时间. %util:I/O请求占CPU的百分比,比率越大,说明越饱和.
注意:
avgqu-sz 的值较低时,设备的利用率较高。
当%util的值接近 1 时,表示设备带宽已经占满。
总结:
要判断系统瓶颈问题,有时需几个 sar 命令选项结合起来
怀疑CPU存在瓶颈,可用 sar -u 和 sar -q 等来查看
怀疑内存存在瓶颈,可用 sar -B、sar -r 和 sar -W 等来查看
怀疑I/O存在瓶颈,可用 sar -b、sar -u 和 sar -d 等来查看
7、iotop
用来监视磁盘I/O使用状况的top类工具,实时观察磁盘io情况,可以观察到哪个进程占用I/O
yum install iotop
iotop 参数:
-o:只显示有io操作的进程 -b:批量显示,无交互,主要用作记录到文件。 -n NUM:显示NUM次,主要用于非交互式模式。 -d SEC:间隔SEC秒显示一次。 -p PID:监控的进程pid。 -u USER:监控的进程用户。
iotop常用快捷键:
1. (1)左右箭头:改变排序方式,默认是按IO排序。 2. (2) r:改变排序顺序。 3. (3) o:只显示有IO输出的进程。 4. (4) p:进程/线程的显示方式的切换。 5. (5) a:显示累积使用量。 6. (6) q:退出
8、htop
Htop类似于top命令,但可以让你在垂直和水平方向上滚动,所以你可以看到系统上所有运行的进程,以及它们完整的命令行。可以不输入进程的PID就可以对此进程进行相关的操作(kill)。Htop是Linux系统中的一个互动的进程查看器,一个文本模式的应用程序(在控制台orX终端中),需要ncurses。与Linux传统的top相比,htop更加人性化。它可以让用户交互式操作,支持颜色主题,可横向或者纵向滚动浏览进程列表,并支持鼠标操作。
与top相比,htop有以下优点:
可以横向或纵向滚动浏览进程列表,以便看到所有的进程和完整命令行;
在启动时,比top要快;
杀进程时不需要输入进程号;
htop支持鼠标操作;
1. wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo 2. yum -y install htop
htop区域
区域1:CPU使用率、内存以及交换空间使用率;
区域2:1/5/15分钟的平均负载以及开机时间等;
区域3:当前系统中运行的进程;
区域4:功能键;
在区域3中,代表当前系统中运行的进程。各项说明如下:
1.PID:进程标志号,是非零正整数 2.USER:进程所有者的用户名 3.PR:进程的优先级别 4.NI:进程的优先级别数值 5.VIRT:进程占用的虚拟内存值 6.RES:进程占用的物理内存值 7.SHR:进程使用的共享内存值 8.S:进程的状态,其中S代表休眠,R代表正在运行,Z表示僵死状态,N代表该进程优先级是负数 9.%CPU:该进程占用的cpu使用率 10.%MEM:该进程占用的物理内存和总内存的百分比 11.TIME+:该进程启动后占用的总的CPU时间 12.COMMAND:进程启动的启动命令名称 -C --no-color 使用一个单色的配色方案 -d --delay=DELAY 设置延迟更新时间,单位秒 -h --help 显示htop 命令帮助信息 -u --user=USERNAME 只显示一个给定的用户的过程 -p --pid=PID,PID… 只显示给定的PIDs -s --sort-key COLUMN 依此列来排序 -v –version 显示版本信息 交互式命令(INTERACTIVE COMMANDS) 上下键或PgUP, PgDn 选定想要的进程,左右键或Home, End 移动字段,当然也可以直接用鼠标选定进程; Space 标记/取消标记一个进程。命令可以作用于多个进程,例如 "kill",将应用于所有已标记的进程 U 取消标记所有进程 s 选择某一进程,按s:用strace追踪进程的系统调用 l 显示进程打开的文件: 如果安装了lsof,按此键可以显示进程所打开的文件 I 倒转排序顺序,如果排序是正序的,则反转成倒序的,反之亦然 +, - When in tree view mode, expand or collapse subtree. When a subtree is collapsed a "+" sign shows to the left of the process name. a (在有多处理器的机器上) 设置 CPU affinity: 标记一个进程允许使用哪些CPU u 显示特定用户进程 M 按Memory 使用排序 P 按CPU 使用排序 T 按Time+ 使用排序 F 跟踪进程: 如果排序顺序引起选定的进程在列表上到处移动,让选定条跟随该进程。这对监视一个进程非常有用:通过这种方式,你可以让一个进程在屏幕上一直可见。使用方向键会停止该功能。 K 显示/隐藏内核线程 H 显示/隐藏用户线程 Ctrl-L 刷新 Numbers PID 查找: 输入PID,光标将移动到相应的进程上 F1 帮助 F2 设定 F3 搜索 F4 过滤 F5 显示树形结构,类似pstree F6 选择排序方式 F7 调低nice值 F8 调高nice值 F9 杀死进程 q 退出
9、glances
glances是一个基于python语言开发,可以为linux或者UNIX性能提供监视和分析性能数据的功能。glances在用户的终端上显示重要的系统信息,并动态的进行更新,让管理员实时掌握系统资源的使用情况,而动态监控并不会消耗大量的系统资源,比如CPU资源,通常消耗小于2%,glances默认每两秒更新一次数据。同时glances还可以将相同的数据捕获到一个文件,便于以后对报告进行分析和图形绘制,支持的文件格式有.csv电子表格格式和和html格式。
glances可以分析系统的:
CPU使用率
内存使用率
内核统计信息和运行队列信息
磁盘I/O速度、传输和读/写比率
磁盘适配器
网络I/O速度、传输和读/写比率
页面监控
进程监控-消耗资源最多的进程
计算机信息和系统资源
(1)安装
yum -y install glances
glances 工作界面的说明 :
在图 的上部是 CPU 、Load(负载)、Mem(内存使用)、 Swap(交换分区)的使用情况。
在图的中上部是网络接口、Processes(进程)的使用情况。
通常包括如下字段:
%CPU:该进程占用的 CPU 使用率 %MEM:该进程占用的物理内存和总内存的百分比 VIRT: 虚拟内存大小 RES: 进程占用的物理内存值 PID: 进程 ID 号 USER: 进程所有者的用户名 NI: 进程优先级 S: 进程状态,其中 S 表示休眠,R 表示正在运行,Z 表示僵死状态。 TIME+: 该进程启动后占用的总的 CPU 时间 IO_R 和 IO_W: 进程的读写 I/O 速率 Command: 进程名称
在上图的左侧是网络、磁盘IO、磁盘分区使用情况。
另外 glances 可以使用交互式的方式运行该工具,用户可以使用如下快捷键:
h : 显示帮助信息 q : 离开程序退出 c :按照 CPU 实时负载对系统进程进行排序 m :按照内存使用状况对系统进程排序 i:按照 I/O 使用状况对系统进程排序 p: 按照进程名称排序 d : 显示磁盘读写状况 w : 删除日志文件 l :显示日志 s: 显示传感器信息 f : 显示系统信息 1 :轮流显示每个 CPU 内核的使用情况(次选项仅仅使用在多核 CPU 系统)
(2)glances 使用方法
glances 是一个命令行工具包括如下命令选项: -b:显示网络连接速度 Byte/ 秒 -B @IP|host :绑定服务器端 IP 地址或者主机名称 -c @IP|host:连接 glances 服务器端 -C file:设置配置文件默认是 /etc/glances/glances.conf -d:关闭磁盘 I/O 模块 -e:显示传感器温度 -f file:设置输出文件(格式是 HTML 或者 CSV) -m:关闭挂载的磁盘模块 -n:关闭网络模块 -p PORT:设置运行端口默认是 61209 -P password:设置客户端 / 服务器密码 -s:设置 glances 运行模式为服务器 -t sec:设置屏幕刷新的时间间隔,单位为秒,默认值为 2 秒,数值许可范围:1~32767 -h : 显示帮助信息 -v : 显示版本信息
glances支持C/S模式监控,被监控机运行服务端,监控端运行客户端既可以实现远程监控。
C/S模式都必须安装glances才可以实现。
服务端启动(192.168.8.20)
服务端使用的端口默认是61209,如果使用服务端请注意开启防火墙。
glances -s -B 192.168.8.20
客户端访问
glances -c 192.168.8.20