3天玩转shell--11.实战编写服务器资源告警脚本

简介: 本文将通过shell代码示例,简单通俗的讲解shell。通过执行代码和运行结果反向掌握shell编程方法。准备一台低配的阿里云ECS Linux环境,跟着教程走起,本文比较适合shell小白。

一、功能介绍:

【1】统计负载、内存、磁盘、swap使用率,
【2】统计连接数、流量、并根据使用情况发邮件告警

二、通过代码学习

本节是通过编写一段简单资源统计告警代码来加深对shel编程的。可以通过执行、调试这段脚本来加深知识点。
#!/bin/bash
#11.sh v1
PATH="/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin"
export LANG=zh_CN.UTF-8
export PATH

#定义变量
HostName=$(hostname -s)
IP=$(ifconfig | awk '/inet /{sub(/addr:/,"",$2);print $2}')
NOTICE_MAIL="aa@bb.com"  #多个邮箱逗号隔开
mail_content="/tmp/.alarm.info"

#初始化配置邮件发送的信息
init(){
   which mail >/dev/null
   if [ $? -ne 0 ];then
      yum -y install mailx
   fi
   if [ -s /etc/mail.rc ];then
      grep "set smtp-auth-user=" /etc/mail.rc >/dev/null
      if [ $? -ne 0 ];then
         cat >> /etc/mail.rc << EOF
set from=user@163.com
set smtp=smtp.163.com
set smtp-auth-user=user@163.com
set smtp-auth-password=password
set smtp-auth=login
EOF
      fi
   fi
}

#邮件发送函数
AlarmNotice(){
    Mail_Title="[WARN] $HostName[$IP]Server performance alarm"
    mail -s "$Mail_Title"  "$NOTICE_MAIL" < $mail_content
}

CollectSysinfo(){
    #获取当前系统时间
    Htime=$(date +"%Y-%m-%dT%H:%M:%S%z")
    Timestamp=$(date +%s000)

    #读取系统负载
    Load=$(uptime | awk 'NR==1{gsub(/,/,"");print $(NF-2)}')

    #读取swap使用率
    SwapUsed=$(free | awk '/Swap/&&0!~$2{printf("%.3f\n",($3/$2))}')

    #读取内存使用率
    MemUsed=$(free -m|awk '/Mem/{printf("%.3f\n",($2-$7)/$2)}')

    #读取磁盘使用率
    DiskUsed=$(df -P | sed "1d"|awk 'gsub(/%/,""){print $(NF-1)/100}'|sort -r|head -1)
    TcpConn=$(ss -s|awk '/TCP:/{print $2}')

    #获取网卡流量
    sar -n DEV 1 5 >/tmp/.sarDEV.txt
    grep "xkB/s" /tmp/.sarDEV.txt >/dev/null
    if [ $? -eq 0 ];then
       Trafficin=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$5*8/1024)}')
       Trafficout=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$6*8/1024)}')
    else
       Trafficin=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$5*8/1024/1024)}')
       Trafficout=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$6*8/1024/1024)}')
    fi

    #将采集数据通过cur,以useragent的形式传到接收端。接收端做法很简单,只需要打开nginx日志,然后nginx日志的格式只配置一个useragent的字段,这样就会将正行json格式记录了,参考配置:   #log_format  jsonlog escape=json '$http_user_agent';
#access_log logs/access_alarm.log jsonlog;

    postData="{\"server\":\"$IP\",\"load\":$Load,\"swap\":$SwapUsed,\"mem\":$MemUsed,\"disk\":$DiskUsed,\"tcpconn\":$TcpConn,\"trafficin\":$Trafficin,\"trafficout\":$Trafficout,\"timestamp\":$Timestamp,
\"htime\":\"$Htime\"}"
    curl -A "${postData}" -s --connect-timeout 5 --max-time 10 "${nodeperfApi}"

    #告警判断
    A_Load=$(echo "$Load"|awk '$1>15{printf "Load:%d\n",$1}')   #负载大于15进行告警
    A_MemUsed=$(echo "$MemUsed"|awk '$1>0.85{printf "MemUsed:%.3f\n",$1}')  #内存使用率大于85%开始告警
    A_SwapUsed=$(echo "$SwapUsed"|awk '$1>0.85{printf "SwapUsed:%.3f\n",$1}')  #swap使用率大于85%开始告警
    A_DiskUsed=$(echo "$DiskUsed"|awk '$1>0.9{printf "DiskUsed:%.3f\n",$1}')   #磁盘使用率大于90%开始告警

    echo -e "$A_Load $A_MemUsed $A_SwapUsed $A_DiskUsed" >$mail_content #将超出阀值的信息导出到临时文件

    egrep "[A-Za-z0-9]" $mail_content >/dev/null
    if [ $? -eq 0 ];then   #判断导出的临时文件是否不为空
       lastrunt=$(head -1 /tmp/nodealarm.tag)
       ttimes=$(( 10#${Timestamp:0:10} - 10#$lastrunt ))
       if [[ 10#$ttimes -gt 600 ]];then  #判断距离上一次告警是否超过10分钟,超过之后才进行告警。
          AlarmNotice
          echo "${Timestamp:0:10}" >/tmp/nodealarm.tag
       fi
       echo "$Htime $alarmctx" >>/tmp/run.debug.log  #将告警信息打印与本地日志
       rm -f $mail_content
    fi
}

init
CollectSysinfo
AI 代码解读
目录
打赏
0
0
0
0
4
分享
相关文章
|
9天前
|
【linux】Shell脚本中basename和dirname的详细用法教程
本文详细介绍了Linux Shell脚本中 `basename`和 `dirname`命令的用法,包括去除路径信息、去除后缀、批量处理文件名和路径等。同时,通过文件备份和日志文件分离的实践应用,展示了这两个命令在实际脚本中的应用场景。希望本文能帮助您更好地理解和应用 `basename`和 `dirname`命令,提高Shell脚本编写的效率和灵活性。
65 32
深度学习在资源利用率优化中的应用:让服务器更聪明
深度学习在资源利用率优化中的应用:让服务器更聪明
25 6
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
59 20
使用ACK Edge统一管理多地域的ECS资源
本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。
云服务器成本优化深度解析与实战案例
本文深入探讨了云服务器成本优化的策略与实践,涵盖基本原则、具体策略及案例分析。基本原则包括以实际需求为导向、动态调整资源、成本控制为核心。具体策略涉及选择合适计费模式、优化资源配置、存储与网络配置、实施资源监控与审计、应用性能优化、利用优惠政策及考虑多云策略。文章还通过电商、制造企业和初创团队的实际案例,展示了云服务器成本优化的有效性,最后展望了未来的发展趋势,包括智能化优化、多云管理和绿色节能。
|
2月前
|
服务器系统资源不足怎么办
服务器系统资源不足怎么办
85 4
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
116 6
6种方法打造出色的Shell脚本
6种方法打造出色的Shell脚本
108 2
6种方法打造出色的Shell脚本
云计算系列之阿里云ECS服务器管理实战
本文档介绍了阿里云ECS(Elastic Compute Service)的基本概念、实例管理、磁盘操作、快照与镜像功能及其应用场景,最后通过具体案例解析ECS的实际应用。ECS是阿里云提供的高效、可靠的云计算服务,支持多种业务需求,如Web应用、高并发网站、数据库等,帮助企业快速构建稳定安全的应用,提升运维效率,降低IT成本。文档还详细说明了ECS实例的创建方式、连接方法及日常管理操作,帮助用户更好地利用ECS服务。
142 2
云计算系列之阿里云ECS服务器管理实战

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等