3天玩转shell--11.实战编写服务器资源告警脚本

简介: 本文将通过shell代码示例,简单通俗的讲解shell。通过执行代码和运行结果反向掌握shell编程方法。准备一台低配的阿里云ECS Linux环境,跟着教程走起,本文比较适合shell小白。

一、功能介绍:

【1】统计负载、内存、磁盘、swap使用率,
【2】统计连接数、流量、并根据使用情况发邮件告警

二、通过代码学习

本节是通过编写一段简单资源统计告警代码来加深对shel编程的。可以通过执行、调试这段脚本来加深知识点。
#!/bin/bash
#11.sh v1
PATH="/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin"
export LANG=zh_CN.UTF-8
export PATH

#定义变量
HostName=$(hostname -s)
IP=$(ifconfig | awk '/inet /{sub(/addr:/,"",$2);print $2}')
NOTICE_MAIL="aa@bb.com"  #多个邮箱逗号隔开
mail_content="/tmp/.alarm.info"

#初始化配置邮件发送的信息
init(){
   which mail >/dev/null
   if [ $? -ne 0 ];then
      yum -y install mailx
   fi
   if [ -s /etc/mail.rc ];then
      grep "set smtp-auth-user=" /etc/mail.rc >/dev/null
      if [ $? -ne 0 ];then
         cat >> /etc/mail.rc << EOF
set from=user@163.com
set smtp=smtp.163.com
set smtp-auth-user=user@163.com
set smtp-auth-password=password
set smtp-auth=login
EOF
      fi
   fi
}

#邮件发送函数
AlarmNotice(){
    Mail_Title="[WARN] $HostName[$IP]Server performance alarm"
    mail -s "$Mail_Title"  "$NOTICE_MAIL" < $mail_content
}

CollectSysinfo(){
    #获取当前系统时间
    Htime=$(date +"%Y-%m-%dT%H:%M:%S%z")
    Timestamp=$(date +%s000)

    #读取系统负载
    Load=$(uptime | awk 'NR==1{gsub(/,/,"");print $(NF-2)}')

    #读取swap使用率
    SwapUsed=$(free | awk '/Swap/&&0!~$2{printf("%.3f\n",($3/$2))}')

    #读取内存使用率
    MemUsed=$(free -m|awk '/Mem/{printf("%.3f\n",($2-$7)/$2)}')

    #读取磁盘使用率
    DiskUsed=$(df -P | sed "1d"|awk 'gsub(/%/,""){print $(NF-1)/100}'|sort -r|head -1)
    TcpConn=$(ss -s|awk '/TCP:/{print $2}')

    #获取网卡流量
    sar -n DEV 1 5 >/tmp/.sarDEV.txt
    grep "xkB/s" /tmp/.sarDEV.txt >/dev/null
    if [ $? -eq 0 ];then
       Trafficin=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$5*8/1024)}')
       Trafficout=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$6*8/1024)}')
    else
       Trafficin=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$5*8/1024/1024)}')
       Trafficout=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$6*8/1024/1024)}')
    fi

    #将采集数据通过cur,以useragent的形式传到接收端。接收端做法很简单,只需要打开nginx日志,然后nginx日志的格式只配置一个useragent的字段,这样就会将正行json格式记录了,参考配置:   #log_format  jsonlog escape=json '$http_user_agent';
#access_log logs/access_alarm.log jsonlog;

    postData="{\"server\":\"$IP\",\"load\":$Load,\"swap\":$SwapUsed,\"mem\":$MemUsed,\"disk\":$DiskUsed,\"tcpconn\":$TcpConn,\"trafficin\":$Trafficin,\"trafficout\":$Trafficout,\"timestamp\":$Timestamp,
\"htime\":\"$Htime\"}"
    curl -A "${postData}" -s --connect-timeout 5 --max-time 10 "${nodeperfApi}"

    #告警判断
    A_Load=$(echo "$Load"|awk '$1>15{printf "Load:%d\n",$1}')   #负载大于15进行告警
    A_MemUsed=$(echo "$MemUsed"|awk '$1>0.85{printf "MemUsed:%.3f\n",$1}')  #内存使用率大于85%开始告警
    A_SwapUsed=$(echo "$SwapUsed"|awk '$1>0.85{printf "SwapUsed:%.3f\n",$1}')  #swap使用率大于85%开始告警
    A_DiskUsed=$(echo "$DiskUsed"|awk '$1>0.9{printf "DiskUsed:%.3f\n",$1}')   #磁盘使用率大于90%开始告警

    echo -e "$A_Load $A_MemUsed $A_SwapUsed $A_DiskUsed" >$mail_content #将超出阀值的信息导出到临时文件

    egrep "[A-Za-z0-9]" $mail_content >/dev/null
    if [ $? -eq 0 ];then   #判断导出的临时文件是否不为空
       lastrunt=$(head -1 /tmp/nodealarm.tag)
       ttimes=$(( 10#${Timestamp:0:10} - 10#$lastrunt ))
       if [[ 10#$ttimes -gt 600 ]];then  #判断距离上一次告警是否超过10分钟,超过之后才进行告警。
          AlarmNotice
          echo "${Timestamp:0:10}" >/tmp/nodealarm.tag
       fi
       echo "$Htime $alarmctx" >>/tmp/run.debug.log  #将告警信息打印与本地日志
       rm -f $mail_content
    fi
}

init
CollectSysinfo
相关文章
|
1天前
|
机器学习/深度学习 运维 资源调度
深度学习在资源利用率优化中的应用:让服务器更聪明
深度学习在资源利用率优化中的应用:让服务器更聪明
15 6
|
5天前
|
Shell Linux
【linux】Shell脚本中basename和dirname的详细用法教程
本文详细介绍了Linux Shell脚本中 `basename`和 `dirname`命令的用法,包括去除路径信息、去除后缀、批量处理文件名和路径等。同时,通过文件备份和日志文件分离的实践应用,展示了这两个命令在实际脚本中的应用场景。希望本文能帮助您更好地理解和应用 `basename`和 `dirname`命令,提高Shell脚本编写的效率和灵活性。
60 32
|
7天前
|
存储 人工智能 并行计算
2025年阿里云弹性裸金属服务器架构解析与资源配置方案
🚀 核心特性与技术创新:提供100%物理机性能输出,支持NVIDIA A100/V100 GPU直通,无虚拟化层损耗。网络与存储优化,400万PPS吞吐量,ESSD云盘IOPS达100万,RDMA延迟<5μs。全球部署覆盖华北、华东、华南及海外节点,支持跨地域负载均衡。典型应用场景包括AI训练、科学计算等,支持分布式训练和并行计算框架。弹性裸金属服务器+OSS存储+高速网络综合部署,满足高性能计算需求。
|
28天前
|
运维 Shell 数据库
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
56 20
|
1月前
|
弹性计算 运维 Kubernetes
使用ACK Edge统一管理多地域的ECS资源
本文介绍如何使用ACK Edge来管理分布在多个地域的ECS资源。
|
2月前
|
存储 监控 调度
云服务器成本优化深度解析与实战案例
本文深入探讨了云服务器成本优化的策略与实践,涵盖基本原则、具体策略及案例分析。基本原则包括以实际需求为导向、动态调整资源、成本控制为核心。具体策略涉及选择合适计费模式、优化资源配置、存储与网络配置、实施资源监控与审计、应用性能优化、利用优惠政策及考虑多云策略。文章还通过电商、制造企业和初创团队的实际案例,展示了云服务器成本优化的有效性,最后展望了未来的发展趋势,包括智能化优化、多云管理和绿色节能。
|
2月前
|
安全 云计算
服务器系统资源不足怎么办
服务器系统资源不足怎么办
74 4
|
3月前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
112 6
|
3月前
|
XML JSON 监控
Shell脚本要点和难点以及具体应用和优缺点介绍
Shell脚本在系统管理和自动化任务中扮演着重要角色。尽管存在调试困难、可读性差等问题,但其简洁高效、易于学习和强大的功能使其在许多场景中不可或缺。通过掌握Shell脚本的基本语法、常用命令和函数,并了解其优缺点,开发者可以编写出高效的脚本来完成各种任务,提高工作效率。希望本文能为您在Shell脚本编写和应用中提供有价值的参考和指导。
127 1
|
3月前
|
Ubuntu Shell 开发工具
ubuntu/debian shell 脚本自动配置 gitea git 仓库
这是一个自动配置 Gitea Git 仓库的 Shell 脚本,支持 Ubuntu 20+ 和 Debian 12+ 系统。脚本会创建必要的目录、下载并安装 Gitea,创建 Gitea 用户和服务,确保 Gitea 在系统启动时自动运行。用户可以选择从官方或小绿叶技术博客下载安装包。
130 2

热门文章

最新文章