Nagios插件开发之监控服务器负载 推荐

简介: 需求:   今天上午有一台存储服务器未读写,但由于是集群环境,并没有发现这个问题。后来偶然看到该服务器负载为0才发现不对劲,正常情况下应该为5。平时我们监控都是负载高于某个值,而从没想过负载太低也是问题。

需求:

   今天上午有一台存储服务器未读写,但由于是集群环境,并没有发现这个问题。后来偶然看到该服务器负载为0才发现不对劲,正常情况下应该为5。平时我们监控都是负载高于某个值,而从没想过负载太低也是问题。

   为防止后续再出现此情况,决心编写监控负载下限的nagios插件,当负载低于某个值时,则报警。

 

预期:

该脚本应该能替代nagios插件包中的监控负载脚本,自带插件只能监控上限。无法监控下限,预期功能如下:

1、可设置下限的警告阈值,紧急阈值。

2、可设置上限的警告阈值,紧急阈值。

3、也可只设置上限或下限警告阈值。

 

执行效果:

1、  语法错误输出帮助信息

[root@hostb libexec]# shcheck_load_low.sh -LW 0.5,0.5,0.5,0.5  #传参数多时错误。

Option:

parament one

  --lower_limit_warn|-LW    ;set lower warning limit threshold value.

  --upper_limit_warn|-UW    ;set upper warning limit threshold value.

parament two

  --lower_limit_crit|-LC    ;set lower crit limit threshold value.

  --upper_limit_crit|-LC    ;set upper crit limit threshold value.

Example:

  check_load_low.sh -LW 0.5,0.5,0.5  -LC 0.1,0.1,0.1

  check_load_low.sh -UW 15,15,15  -UC 20,20,20

  check_load_low.sh -LW 1,1,1

  check_load_low.sh -UW 15,15,15

 

2、设置下限警告阈值、紧急阈值执行效果

[root@hostb libexec]# shcheck_load_low.sh -LW 8,8,8 -LC 7,7,7 

#同时低于警告阈值与紧急阈值,退出值为2

crit,load average:  4.93, 5.64, 5.96

[root@hostb libexec]# echo $?

2

[root@hostb libexec]# sh check_load_low.sh-LW 8,8,8 -LC 1,1,1  

#低于警告阈值高于紧急阈值,退出值为1

warn,load average:  4.82, 5.43, 5.85

[root@hostb libexec]# echo $?

1

[root@hostb libexec]# shcheck_load_low.sh -LW 1,1,1 -LC 0.5,0.5,0.5  

#负载高于警告,紧急阈值,则正常

OK,load average:  5.59, 5.54, 5.85

[root@hostb libexec]# echo $?

0

 

3、  设置上限警告阈值、紧急阈值执行效果

[root@hostb libexec]# shcheck_load_low.sh -UW 5,5,5 -UC 6,6,6 

#高于警告值,低于紧急值则退出值为1

warn,load average:  5.28, 5.35, 5.73

[root@hostb libexec]# echo $?

1

[root@hostb libexec]# shcheck_load_low.sh -UW 4,4,4 -UC 5,5,5

#同时高于警告值、紧急值则退出值为2

crit,load average:  5.28, 5.35, 5.73

[root@hostb libexec]# echo $?

2

[root@hostb libexec]# shcheck_load_low.sh -UW 15,15,15 -UC 20,20,20

#同时低于警告值、紧急值则退出值为0

OK,load average:  5.20, 5.32, 5.68

[root@hostb libexec]# echo $?

0

 

Shell脚本代码如下:


[root@hostb libexec]# cat check_load_low.sh
#!/bin/sh
 
#####获得当前cpu负载信息#####
load1=`uptime|awk -F: '{print $5}'|awk -F, '{print$1}'`
load5=`uptime|awk -F: '{print $5}'|awk -F, '{print$2}'`
load15=`uptime|awk -F: '{print $5}'|awk -F, '{print$3}'`
 
 
###定义帮助信息函数#####
help(){
echo "Option:"
echo "parament one"
echo " --lower_limit_warn|-LW    ;setlower warning limit threshold value."
echo " --upper_limit_warn|-UW    ;setupper warning limit threshold value."
echo "parament two"
echo " --lower_limit_crit|-LC    ;setlower crit limit threshold value."
echo " --upper_limit_crit|-LC    ;setupper crit limit threshold value."
echo "Example:"
echo "  $0 -LW 0.5,0.5,0.5  -LC 0.1,0.1,0.1"
echo "  $0 -UW 15,15,15  -UC 20,20,20"
echo "  $0 -LW 1,1,1"
echo "  $0 -UW 15,15,15 "
}
 
 
 
 
 
####获取第一个warn传参值,可以是上限阈值或下限阈值######
case $1 in
       --lower_limit_warn|-LW)
       load_warn=(`echo $2|sed 's/,/ /g'`)
       load1_warn=${load_warn[0]}
       load5_warn=${load_warn[1]}
       load15_warn=${load_warn[2]}
        ;;
       --upper_limit_warn|-UW)
       load_warn=(`echo $2|sed 's/,/ /g'`)
       load1_warn=${load_warn[0]}
       load5_warn=${load_warn[1]}
       load15_warn=${load_warn[2]}
        ;;
esac
 
#####获取crit传参值,可以是上限阈值或下限阈值######
case $3 in
       --lower_limit_crit|-LC)
       load_crit=(`echo $4|sed 's/,/ /g'`) #系统uptime输出中有逗号,用sed替换。
       load1_crit=${load_crit[0]}     #使用数组来分别取负载3个值
       load5_crit=${load_crit[1]}
       load15_crit=${load_crit[2]}
        ;;
       --upper_limit_crit|-UC)
       load_crit=(`echo $4|sed 's/,/ /g'`)
       load1_crit=${load_crit[0]}
       load5_crit=${load_crit[1]}
       load15_crit=${load_crit[2]}
        ;;
esac
 
 
#####定义下限告警比较函数########
lower_warn_compare(){
        #把阈值和当前系统值进行对比。
       load1_warn_compare=`echo "$load1 > $load1_warn"|bc`
       load5_warn_compare=`echo "$load5 > $load5_warn"|bc`
       load15_warn_compare=`echo "$load15 > $load15_warn"|bc`
        #如果系统值比阈值低,则比较变量值为1,便于后续调用
        if [[$load1_warn_compare == 0 ]];then
               lower_warn_compare=1
        elif[[ $load5_warn_compare == 0 ]];then
               lower_warn_compare=1
        elif[[ $load15_warn_compare == 0 ]];then
                lower_warn_compare=1
        else
               lower_warn_compare=0
 
        fi
 
}
 
####定义下限紧急比较函数####
lower_crit_compare(){
        #把阈值和当前系统值进行对比
       load1_crit_compare=`echo "$load1 > $load1_crit"|bc`
       load5_crit_compare=`echo "$load5 > $load5_crit"|bc`
       load15_crit_compare=`echo "$load15 > $load15_crit"|bc`
        #如果系统值比阈值低,则比较变量值为2,便于后续调用
        if [[$load1_crit_compare == 0 ]];then
               lower_crit_compare=2
        elif[[ $load5_crit_compare == 0 ]];then
               lower_crit_compare=2
        elif[[ $load15_crit_compare == 0 ]];then
               lower_crit_compare=2
        else
               lower_crit_compare=0
        fi
}
 
 
####定义上限告警比较函数###
upper_warn_compare(){
        #把阈值和当前系统值进行对比
       load1_warn_compare=`echo "$load1 > $load1_warn"|bc`
       load5_warn_compare=`echo "$load5 > $load5_warn"|bc`
       load15_warn_compare=`echo "$load15 > $load15_warn"|bc`
        #如果系统值比阈值高,则比较变量值为1,便于后续调用
        if [[$load1_warn_compare == 1 ]];then
               upper_warn_compare=1
        elif[[ $load5_warn_compare == 1 ]];then
               upper_warn_compare=1
        elif[[ $load15_warn_compare == 1 ]];then
               upper_warn_compare=1
        else
               upper_warn_compare=0
        fi
}
 
 
####定义上限紧急比较函数###
upper_crit_compare(){
        #把阈值和当前系统值进行对比
       load1_crit_compare=`echo "$load1 > $load1_crit"|bc`
       load5_crit_compare=`echo "$load5 > $load5_crit"|bc`
       load15_crit_compare=`echo "$load15 > $load15_crit"|bc`
 
        #如果系统值比阈值高,则比较变量值为2,便于后续调用
        if [[$load1_crit_compare == 1 ]];then
               upper_crit_compare=2
        elif [[$load5_crit_compare == 1 ]];then
               upper_crit_compare=2
        elif[[ $load15_crit_compare == 1 ]];then
               upper_crit_compare=2
        else
               upper_crit_compare=0
        fi
}
 
 
####如果系统参数数量不是2或4,则输出帮助信息###
if [[ $# == 2 || $# == 4 ]];then
    values2=(`echo $2|sed 's/,/ /g'`)
    values4=(`echo $4|sed 's/,/ /g'`)
     #如果紧急负载值为空,或是3个值则正常,否则输出帮助信息并退出
     if [[${values4[@]} == "" || ${#values4[@]} == 3 ]];then
        a=1
        else
        help
        exit2
     fi
 
     #如果警告负载值不是3个,则输出帮助信息并退出
     if [[${#values2[@]} != 3 ]];then
        help
        exit2    
     fi
 
else
   help
   exit 2
fi
 
 
####判断告警传参,执行相应的比较函数。
case $1 in
       --lower_limit_warn|-LW)
       lower_warn_compare
        ;;
       --upper_limit_warn|-UW)
       upper_warn_compare
        ;;
       *)    #如果输入与上述两点不匹配,则输出帮助信息
        help
        ;;
esac
 
####判断紧急传参,执行相应的比较函数。
case $3 in
       --lower_limit_crit|-LC)
       lower_crit_compare
        ;;
       --upper_limit_crit|-UC)
       upper_crit_compare
        ;;
       "")
        a=1
        ;;
        *)
        help
        ;;
esac
 
 
####执行成功后,输出负载信息###
####此处变量在上面函数中都有定义,如果该变量等于1或2,则代表负载超过或低于阈值。则退出值为相应的状态值。
if [[ $upper_crit_compare == 2  ]];then
        echo"crit,load average: $load1,$load5,$load15"
        exit2
elif [[ $lower_crit_compare == 2 ]];then
        echo"crit,load average: $load1,$load5,$load15"
        exit2
elif [[ $upper_warn_compare == 1 ]];then
        echo"warn,load average: $load1,$load5,$load15"
        exit1
elif [[ $lower_warn_compare == 1 ]];then
        echo"warn,load average: $load1,$load5,$load15"
        exit1
else
        echo"OK,load average: $load1,$load5,$load15"
        exit0
fi


相关文章
|
2月前
|
监控 前端开发 应用服务中间件
小游戏源码开发搭建技术栈和服务器配置流程
近些年不同场景游戏层出不穷,现就小游戏开发技术应用及功能详细剖析!
|
3月前
|
存储 人工智能 自然语言处理
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
ChatMCP 是一款基于模型上下文协议(MCP)的 AI 聊天客户端,支持多语言和自动化安装。它能够与多种大型语言模型(LLM)如 OpenAI、Claude 和 OLLama 等进行交互,具备自动化安装 MCP 服务器、SSE 传输支持、自动选择服务器、聊天记录管理等功能。
343 15
ChatMCP:基于 MCP 协议开发的 AI 聊天客户端,支持多语言和自动化安装 MCP 服务器
|
4月前
|
安全 开发工具 Swift
Swift 是苹果公司开发的现代编程语言,具备高效、安全、简洁的特点,支持类型推断、闭包、泛型等特性,广泛应用于苹果各平台及服务器端开发
Swift 是苹果公司开发的现代编程语言,具备高效、安全、简洁的特点,支持类型推断、闭包、泛型等特性,广泛应用于苹果各平台及服务器端开发。基础语法涵盖变量、常量、数据类型、运算符、控制流等,高级特性包括函数、闭包、类、结构体、协议和泛型。
79 2
|
4月前
|
关系型数据库 API 数据库
后端开发的艺术:从零到一构建高效服务器
在数字化时代,后端开发是支撑现代互联网应用的基石。本文旨在探讨后端开发的核心概念、关键技术以及如何构建一个高效的服务器。我们将从基础的编程语言选择开始,逐步深入到数据库设计、API开发和性能优化等关键领域。通过实际案例分析,我们将揭示后端开发的复杂性和挑战性,同时提供实用的解决方案和最佳实践。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的见解和启发。
|
4月前
|
运维 监控 Unix
服务器监控软件Nagios
【10月更文挑战第19天】
64 2
|
5月前
|
网络安全 Docker 容器
VScode远程服务器之远程 远程容器 进行开发(五)
VScode远程服务器之远程 远程容器 进行开发(五)
112 1
|
5月前
|
Java PHP
PHP作为广受青睐的服务器端脚本语言,在Web开发中占据重要地位。理解其垃圾回收机制有助于开发高效稳定的PHP应用。
【10月更文挑战第1天】PHP作为广受青睐的服务器端脚本语言,在Web开发中占据重要地位。其垃圾回收机制包括引用计数与循环垃圾回收,对提升应用性能和稳定性至关重要。本文通过具体案例分析,详细探讨PHP垃圾回收机制的工作原理,特别是如何解决循环引用问题。在PHP 8中,垃圾回收机制得到进一步优化,提高了效率和准确性。理解这些机制有助于开发高效稳定的PHP应用。
69 3
|
5月前
|
NoSQL PHP Redis
布谷语音app源码服务器环境配置及技术开发语言
布谷语音app源码服务器环境配置及技术语言研发。。
|
6月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
5月前
|
Kubernetes 网络安全 容器
VScode远程服务器进行开发(三)
VScode远程服务器进行开发(三)
108 0