监控Linux服务器

简介: 详细介绍了如何监控Linux服务器,包括监控CPU、内存、磁盘存储和带宽的使用情况,以及使用各种系统监控工具如vmstat、iostat、sar、top和dstat来分析系统性能,并推荐了一些开源监控系统。

作者:尹正杰
版权声明:原创作品,谢绝转载!否则将追究法律责任。

一.Linux系统监控基础

  从性能的角度来看,监控Linux系统主要监控CPU,内存,磁盘存储和带宽的使用情况。

1>.监控CPU使用情况

  只要没有使用100%的CPU容量,就可以在系统中使用剩余的容量来支持更多的活动。CPU的使用达到峰值是常见的,但是在CPU使用率过高时,我们的目标是跟踪那些进程导致CPU使用过多。

  检查CPU使用去考试应该注意下面几个关键因素:  
    (1)用户与系统使用情况:  
      与用户维护操作系统运行的时间成正比,可以确定CPU用于用户应用程序的时间百分比。显然,如果CPU的大部分时间由系统占用了,则可能还需要进一步检查。  
    (2)可运行进程:  
      在任务给定的时间,进程要么在运行,要么在等待资源被释放。正在等待资源分配的进程称为可运行进程。大量可运行进程的存在表明系统可能面临容量危机,它是CPU绑定的。  
    (3)上下文切换和中断:  
      当操作系统在进程之间切换时,所谓的上线文切换回导致一些开销。如果有太多次的上下文切换时,则CPU使用率会恶化。当完成某些硬件或软件相关任务时,如果操作系统造成的中断太多,也会产生类似的开销。

2>.监控内存使用情况

  内存是我们遇到性能问题是首先应该关注的资源之一。如果服务器上的内存不足(RAM),系统可能由于内存交换过多而变慢。内存交换意味着系统将内存页面传输到磁盘设备为其他进程释放内存。  

  当检查系统内存使用情况时,请注意以下几点:  
    (1)页面输入和页面输出:  
      如果在内存使用情况统计信息中看到大量的页面输入和页面输出,则意味着系统正在执行过多的分页,这涉及将页面从内存移动到磁盘,如果可用内存不足的话。  
      过多的分页可能导致抖动情况,这意味着你正在使用关键系统资源做内存和磁盘之间的页面移动。  
    (2)换入和换出:  
      交换统计信息还可以指示系统当前内存分配的充足成都。  
    (3)活动和非活动页面:  
      如果活动内存页面太少,则可能意味着物理内存不足。

3>.监控磁盘存储

  监控磁盘涉及两件事情。首先,检查以确保没有用尽空间,应用程序持续添加更多数据,因而必须不断添加更多的存储空间。其次,观察磁盘性能,磁盘输入/磁盘输出性能较慢,是否存在瓶颈?

  要查找的基本信息如下所示:  
    (1)检查可用空间  
      使用简单的命令,系统管理员或DBA可用检查系统剩余的可用空间量。最好是定期检查,在资源紧张是监控就太晚了。可用使用df和du命令检查系统上的可用空间。  
    (2)读取和写入  
      读取/写入数据可以帮助你了解磁盘的运行有多"热"。通过检查读取/写入数据,可以了解系统是否正在处理其工作负载,或者在任何给定时间是否处理额外的I/O负载。

4>.监控带宽

  通过监测网络带宽使用情况,可以计算设备间数据穿度的效率。带宽比简单的I/O或内存使用更难测定,但收集带宽相关统计信息非常有用。

  网络是系统的重要组成部分,如果网络连接速度较慢,则一切都会运行缓慢。简单的网络统计信息(如接受和发送的字节数)可帮助我们识别网络问题。

  高网络数据包冲突率以及过多的数据传输错误会导致传输瓶颈。需要使用netstat等工具来检查网络,看网络是否存在瓶颈。

二.Linux系统监控工具

  为了找出正在运行的进程,最常使用Linux进程命令ps。当然,为了健康系统性能,需要使用比ps命令更复杂的工具。下面介绍可用于监控系统性能的一些重要工具。

1>.监测内存使用vmstat

  [root@hadoop101.yinzhengjie.com ~]# vmstat -S M 1

  输出如下图所示,个字段说明如下:
    procs(进程):
      r: 
        运行队列中进程数量
      b: 
        等待IO的进程数量

    memory(内存):
      swpd: 
        使用虚拟内存大小,我禁用了swap分区,因此你会看到虚拟内存始终为0。
      free: 
        剩余空闲内存,即可用内存大小
      buff: 
        用作缓冲的内存大小
      cache: 
        用作缓存的内存大小

    swap(虚拟内存我已经禁用了,因此该字段数值始终为0,我们忽略即可):
      si: 
        每秒从交换区写到内存的大小
      so: 
        每秒写入交换区的内存大小

    io:(磁盘I/O的情况统计信息)
      bi: 
        每秒读取的块数,块大小通常是4k,即(4096bytes)。当然,若也可以自定义了文件的块大小,这个我在之前的笔记已经分享过。
      bo: 
        每秒写入的块数。

    system(系统信息统计):
      in: 
        每秒中断(interrupt)数,包括时钟中断。
      cs: 
        每秒上下文切换数,单位为:counts/second。
  
    cpu(CPU的以百分比表示):
      us: 
        用户进程执行时间(user time)
      sy:   
        系统进程执行时间(system time)
      id:   
        空闲时间(包括IO等待时间),中央处理器的空闲时间 。以百分比表示。
      wa:   
        等待IO时间

2>.使用meminfo查看内存使用情况和内存空闲情况

  如下图所示,检查服务器内存使用情况的简单方法是使用"/proc/memeinfo"命令。许多Linux工具(如top,free)看了眼使用meminfo文件中的数据作为源。

3>.使用iostat查看I/O统计信息

  iostat使用程序可以提供程序上所有磁盘的输入/输出统计信息。

  avg-cpu属性值说明:
    %user:
      CPU处在用户模式下的时间百分比。
    %nice:
      CPU处在带NICE值的用户模式下的时间百分比。
    %system:
      CPU处在系统模式下的时间百分比。
    %iowait:
      CPU等待输入输出完成时间的百分比。若该值持续过高,则说明硬盘存在I/O瓶颈。
    %steal:
      管理程序维护另一个虚拟处理器时,虚拟CPU的无意识等待时间百分比。
    %idle:
      CPU空闲时间百分比。若该值持续过高,则说明CPU比较空闲。
      如果%idle值高但系统响应慢时,可能是CPU等待分配内存,应加大内存容量。
      如果%idle值持续低于10,表明CPU处理能力相对较低,系统中最需要解决的资源是CPU。

  Divice属性值说明:
    tps:
      该设备每秒的传输次数
    kB_read/s:
      每秒从设备(drive expressed)读取的数据量;
    kB_wrtn/s:
      每秒向设备(drive expressed)写入的数据量;
    kB_read:  
      读取的总数据量;
    kB_wrtn:
      写入的总数量数据量;

  温馨提示:
    如果你是最小化安装,则可以先安装iostat工具,以CentOS发行版本为例,可在命令行中执行以下命令"yum -y install sysstat"进行安装即可。

4>.使用sar分析读/写操作

  Linux sar(系统活动报告器)使用程序是一个非常强大的工具,它可以分析从磁盘到缓冲区花奴才能以及从缓冲区到磁盘的读/写操作。通过sar命令的各种选项,可以监视磁盘和CPU活动,以及缓冲区缓存活动。

  如下图所示,这是一个典型的sar命令的输出,这里使用-u选项来监视服务器的CPU活动,每个1秒刷新一次,共计刷新10次。

  主要看%iowait和%idle,%iowait过高表示存在I/O瓶颈,即磁盘IO无法满足业务需求,如果%idle过低表示CPU使用率比较严重,需要结合内存使用等情况判断CPU是否瓶颈。    
  以下是sar各字段的含义:  
    %user:
      用户空间的CPU使用
    %nice:
      改变过优先级的进程的CPU使用率
    %system:
      内核空间的CPU使用率
    %iowait:
      CPU等待IO的百分比 
    %steal:
      虚拟机的虚拟机CPU使用的CPU
    %idle:
      空闲的CPU

5>.使用top命令监视资源使用情况

  如下图所示,top命令可以查看哪些用户/进程使用的服务器资源最多。

  CPU瓶颈抑郁识别,我们会看到非常高的处理器加载时间,例如80%或90%,甚至更高。还可以看到整个集群中的加载程序加载的时间大于50%或60%。由于涉及不当的hadoop作业,单个进程可能会占用太多的CPU时间。

  在这种情况下,调整map或减少人为会降低CPU使用率。当然,切换到更快的处理器或添加更多处理器也有助于环节CPU争用问题。

  可以通过查看上下文切换和中断来了解CPU争用情况。Linux操作系统是一个具有多核CPU的多任务系统。操作系统会在进程切换时存储称为上线文的CPU状态,从而从中断除恢复执行。

  恢复上下文称为上下文切换。如果上下文切换次数过多,则表明CPU正忙,需花费大量时间存储/恢复进程状态。通常这是由于为每个节点分配太多map或减少任务造成的。

  博主推荐阅读:
    https://www.cnblogs.com/yinzhengjie/p/10367853.html

6>.使用dstat进行网络监控

  当在shuffle阶段,reduce任务获得map任务输出时,hadoop会大量使用网络。当reduce作业将结果输出到HDFS时,网络利用率也高。监控网络有助于识别潜在的网络瓶颈。

  一个很好的网络监控工具(如dstat)可以显示网络的工作负载,下面有一些 有用的经验法则:  
    (1)如果网络数据速率约为网络带宽的20%或更高,则表示网络过载;  
    (2)高中断率表示网络流量超载,dstat工具还同时显示网络数据速率和中断数量,如下图所示。  

  温馨提示:  
    如果你的服务器未安装该命令,可以手动安装,以CentOS为例,可以执行"yum -y install dstat"命令进行安装。

三.开源的监控系统

  开源的监控系统就多了去了,它们都可以监控Linux操作系统。比如Cacti,Nagios,Zabbix,Open Falcon,Prometheus,Ganglia等等。  

  每个开源监控系统都有自己擅长的领域,比如Cacti擅长监控网络设备,Nagios有很好的报警功能,Zabbix有不错的WebUI,Open Falcon可以监控数以万计的服务器,Prometheus擅长监控容器,Ganglia擅长大数据组件的监控等等。  

  温馨提示:  
    可以结合公司现有的应用,统一使用一个监控系统来监控所有应用。
目录
相关文章
|
2月前
|
监控 安全 Linux
在Linux中,zabbix如何监控脑裂?
在Linux中,zabbix如何监控脑裂?
|
4天前
|
Java Linux
java读取linux服务器下某文档的内容
java读取linux服务器下某文档的内容
16 3
java读取linux服务器下某文档的内容
|
2天前
|
监控 安全 Linux
使用NRPE和Nagios监控Linux系统资源的方法
通过遵循以上步骤,可以有效地使用NRPE和Nagios监控Linux系统资源,确保系统运行稳定,并及时响应任何潜在的问题。这种方法提供了高度的可定制性和灵活性,适用于从小型环境到大型分布式系统的各种监控需求。
12 2
|
15天前
|
Ubuntu Linux
Linux服务器的自动启动可以在哪里进行配置?
Linux服务器的自动启动可以在哪里进行配置?
71 3
|
26天前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
2月前
|
Linux
Linux 服务器下载百度网盘文件
本教程指导如何使用 `bypy` 库从百度网盘下载文件。首先通过 `pip install bypy` 安装库,接着运行 `bypy info` 获取登录链接并完成授权,最后将文件置于指定目录并通过 `bypy downdir /Ziya-13b-v1` 命令下载至本地。
40 1
Linux 服务器下载百度网盘文件
|
23天前
|
存储 数据挖掘 Linux
服务器数据恢复—Linux操作系统网站服务器数据恢复案例
服务器数据恢复环境: 一台linux操作系统服务器上跑了几十个网站,服务器上只有一块SATA硬盘。 服务器故障: 服务器突然宕机,尝试再次启动失败。将硬盘拆下检测,发现存在坏扇区
|
1月前
|
存储 安全 Linux
离线Linux服务器环境搭建
【9月更文挑战第3天】在离线环境下搭建Linux服务器需按以下步骤进行:首先确定服务器用途及需求,准备安装介质与所需软件包;接着安装Linux系统并配置网络;然后设置系统基础参数,如主机名与时区;安装必要软件并配置服务;最后进行安全设置,包括关闭非必要服务、配置防火墙、强化用户认证及定期备份数据。整个过程需确保软件包的完整性和兼容性。
|
2月前
|
Shell Linux Perl
linux服务器自动生成本地快照
【8月更文挑战第28天】本文介绍了在Linux服务器上通过两种常见方式创建本地快照的方法:Btrfs文件系统与LVM。Btrfs原生支持快照功能,操作简单快捷;LVM则提供了灵活的逻辑卷管理,可在不影响原始数据的情况下创建快照。文章详细列出了创建、查看、挂载及清理快照的具体步骤,并提供了一个自动化的Shell脚本示例,便于用户根据需求定期创建快照并清理过期快照。
26 3
|
2月前
|
Ubuntu 网络协议 Linux
Linux下快速搭建七日杀官方私人服务器教程
本文提供了一份详尽的《七日杀》服务器搭建指南,专为Linux系统设计。教程分为九大部分,涵盖从前期准备到服务器维护的全过程。主要内容包括:选择具备公网IP的云服务器、安装Ubuntu 20 X64系统、下载SteamCMD等必备软件;详细指导如何配置服务器、设置防火墙及端口规则、启动与关闭服务器;此外还提供了服务器管理、环境配置(如设置swap分区)等实用技巧。适合有一定Linux基础的玩家参考实践。
下一篇
无影云桌面