3天玩转shell--11.实战编写服务器资源告警脚本

简介: 本文将通过shell代码示例,简单通俗的讲解shell。通过执行代码和运行结果反向掌握shell编程方法。准备一台低配的阿里云ECS Linux环境,跟着教程走起,本文比较适合shell小白。

一、功能介绍:

【1】统计负载、内存、磁盘、swap使用率,
【2】统计连接数、流量、并根据使用情况发邮件告警

二、通过代码学习

本节是通过编写一段简单资源统计告警代码来加深对shel编程的。可以通过执行、调试这段脚本来加深知识点。
#!/bin/bash
#11.sh v1
PATH="/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin"
export LANG=zh_CN.UTF-8
export PATH

#定义变量
HostName=$(hostname -s)
IP=$(ifconfig | awk '/inet /{sub(/addr:/,"",$2);print $2}')
NOTICE_MAIL="aa@bb.com"  #多个邮箱逗号隔开
mail_content="/tmp/.alarm.info"

#初始化配置邮件发送的信息
init(){
   which mail >/dev/null
   if [ $? -ne 0 ];then
      yum -y install mailx
   fi
   if [ -s /etc/mail.rc ];then
      grep "set smtp-auth-user=" /etc/mail.rc >/dev/null
      if [ $? -ne 0 ];then
         cat >> /etc/mail.rc << EOF
set from=user@163.com
set smtp=smtp.163.com
set smtp-auth-user=user@163.com
set smtp-auth-password=password
set smtp-auth=login
EOF
      fi
   fi
}

#邮件发送函数
AlarmNotice(){
    Mail_Title="[WARN] $HostName[$IP]Server performance alarm"
    mail -s "$Mail_Title"  "$NOTICE_MAIL" < $mail_content
}

CollectSysinfo(){
    #获取当前系统时间
    Htime=$(date +"%Y-%m-%dT%H:%M:%S%z")
    Timestamp=$(date +%s000)

    #读取系统负载
    Load=$(uptime | awk 'NR==1{gsub(/,/,"");print $(NF-2)}')

    #读取swap使用率
    SwapUsed=$(free | awk '/Swap/&&0!~$2{printf("%.3f\n",($3/$2))}')

    #读取内存使用率
    MemUsed=$(free -m|awk '/Mem/{printf("%.3f\n",($2-$7)/$2)}')

    #读取磁盘使用率
    DiskUsed=$(df -P | sed "1d"|awk 'gsub(/%/,""){print $(NF-1)/100}'|sort -r|head -1)
    TcpConn=$(ss -s|awk '/TCP:/{print $2}')

    #获取网卡流量
    sar -n DEV 1 5 >/tmp/.sarDEV.txt
    grep "xkB/s" /tmp/.sarDEV.txt >/dev/null
    if [ $? -eq 0 ];then
       Trafficin=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$5*8/1024)}')
       Trafficout=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$6*8/1024)}')
    else
       Trafficin=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$5*8/1024/1024)}')
       Trafficout=$(cat /tmp/.sarDEV.txt|awk '/Average/&&/eth0/{printf("%.2f",$6*8/1024/1024)}')
    fi

    #将采集数据通过cur,以useragent的形式传到接收端。接收端做法很简单,只需要打开nginx日志,然后nginx日志的格式只配置一个useragent的字段,这样就会将正行json格式记录了,参考配置:   #log_format  jsonlog escape=json '$http_user_agent';
#access_log logs/access_alarm.log jsonlog;

    postData="{\"server\":\"$IP\",\"load\":$Load,\"swap\":$SwapUsed,\"mem\":$MemUsed,\"disk\":$DiskUsed,\"tcpconn\":$TcpConn,\"trafficin\":$Trafficin,\"trafficout\":$Trafficout,\"timestamp\":$Timestamp,
\"htime\":\"$Htime\"}"
    curl -A "${postData}" -s --connect-timeout 5 --max-time 10 "${nodeperfApi}"

    #告警判断
    A_Load=$(echo "$Load"|awk '$1>15{printf "Load:%d\n",$1}')   #负载大于15进行告警
    A_MemUsed=$(echo "$MemUsed"|awk '$1>0.85{printf "MemUsed:%.3f\n",$1}')  #内存使用率大于85%开始告警
    A_SwapUsed=$(echo "$SwapUsed"|awk '$1>0.85{printf "SwapUsed:%.3f\n",$1}')  #swap使用率大于85%开始告警
    A_DiskUsed=$(echo "$DiskUsed"|awk '$1>0.9{printf "DiskUsed:%.3f\n",$1}')   #磁盘使用率大于90%开始告警

    echo -e "$A_Load $A_MemUsed $A_SwapUsed $A_DiskUsed" >$mail_content #将超出阀值的信息导出到临时文件

    egrep "[A-Za-z0-9]" $mail_content >/dev/null
    if [ $? -eq 0 ];then   #判断导出的临时文件是否不为空
       lastrunt=$(head -1 /tmp/nodealarm.tag)
       ttimes=$(( 10#${Timestamp:0:10} - 10#$lastrunt ))
       if [[ 10#$ttimes -gt 600 ]];then  #判断距离上一次告警是否超过10分钟,超过之后才进行告警。
          AlarmNotice
          echo "${Timestamp:0:10}" >/tmp/nodealarm.tag
       fi
       echo "$Htime $alarmctx" >>/tmp/run.debug.log  #将告警信息打印与本地日志
       rm -f $mail_content
    fi
}

init
CollectSysinfo
目录
相关文章
|
10月前
|
人工智能 JavaScript API
零基础构建MCP服务器:TypeScript/Python双语言实战指南
作为一名深耕技术领域多年的博主摘星,我深刻感受到了MCP(Model Context Protocol)协议在AI生态系统中的革命性意义。MCP作为Anthropic推出的开放标准,正在重新定义AI应用与外部系统的交互方式,它不仅解决了传统API集成的复杂性问题,更为开发者提供了一个统一、安全、高效的连接框架。在过去几个月的实践中,我发现许多开发者对MCP的概念理解透彻,但在实际动手构建MCP服务器时却遇到了各种技术壁垒。从环境配置的细节问题到SDK API的深度理解,从第一个Hello World程序的调试到生产环境的部署优化,每一个环节都可能成为初学者的绊脚石。因此,我决定撰写这篇全面的实
2179 67
零基础构建MCP服务器:TypeScript/Python双语言实战指南
|
7月前
|
弹性计算 人工智能 前端开发
在阿里云ECS上部署n8n自动化工作流:U2实例实战
本文介绍如何在阿里云ECS的u2i/u2a实例上部署开源工作流自动化平台n8n,利用Docker快速搭建并配置定时任务,实现如每日抓取MuleRun新AI Agent并推送通知等自动化流程。内容涵盖环境准备、安全组设置、实战案例与优化建议,助力高效构建低维护成本的自动化系统。
1701 5
|
8月前
|
存储 安全 Unix
七、Linux Shell 与脚本基础
别再一遍遍地敲重复的命令了,把它们写进Shell脚本,就能一键搞定。脚本本质上就是个存着一堆命令的文本文件,但要让它“活”起来,有几个关键点:文件开头最好用#!/usr/bin/env bash来指定解释器,并用chmod +x给它执行权限。执行时也有讲究:./script.sh是在一个新“房间”(子Shell)里跑,不影响你;而source script.sh是在当前“房间”里跑,适合用来加载环境变量和配置文件。
695 9
|
8月前
|
存储 Shell Linux
八、Linux Shell 脚本:变量与字符串
Shell脚本里的变量就像一个个贴着标签的“箱子”。装东西(赋值)时,=两边千万不能有空格。用单引号''装进去的东西会原封不动,用双引号""则会让里面的$变量先“变身”再装箱。默认箱子只能在当前“房间”(Shell进程)用,想让隔壁房间(子进程)也能看到,就得给箱子盖个export的“出口”戳。此外,Shell还自带了$?(上条命令的成绩单)和$1(别人递进来的第一个包裹)等许多特殊箱子,非常有用。
702 3
|
11月前
|
Shell
Shell脚本循环控制:shift、continue、break、exit指令
使用这些命令可以让你的Shell脚本像有生命一样动起来。正确使用它们,你的脚本就能像一场精心编排的舞蹈剧目,既有旋律的起伏,也有节奏的跳跃,最终以一场惊艳的表演结束。每一个动作、每一个转折点,都准确、优雅地完成所需要表达的逻辑。如此,你的脚本不只是冰冷的代码,它透过终端的界面,跳着有节奏的舞蹈,走进观众——使用者的心中。
367 60
|
8月前
|
数据采集 监控 Shell
无需Python:Shell脚本如何成为你的自动化爬虫引擎?
Shell脚本利用curl/wget发起请求,结合文本处理工具构建轻量级爬虫,支持并行加速、定时任务、增量抓取及分布式部署。通过随机UA、异常重试等优化提升稳定性,适用于日志监控、价格追踪等场景。相比Python,具备启动快、资源占用低的优势,适合嵌入式或老旧服务器环境,复杂任务可结合Python实现混合编程。
|
10月前
|
运维 前端开发 JavaScript
半夜服务器告警不再错过!运维人员必备的语音通知方案
为解决深夜服务器宕机错过告警的问题,本文介绍一款专为个人开发者与运维人员设计的语音通知方案。通过电话直接推送重要告警,确保第一时间响应,避免故障扩大。支持多种编程语言调用,配置简单,3步即可完成,实时性强,适合各类关键业务场景。
762 5
|
10月前
|
机器学习/深度学习 人工智能 运维
“服务器老是爆?资源老是浪费?试试用 AI 来规划容量!”
“服务器老是爆?资源老是浪费?试试用 AI 来规划容量!”
277 4
|
10月前
|
Web App开发 缓存 安全
Linux一键清理系统垃圾:释放30GB空间的Shell脚本实战​
这篇博客介绍了一个实用的Linux系统盘清理脚本,主要功能包括: 安全权限检查和旧内核清理,保留当前使用内核 7天以上日志文件清理和系统日志压缩 浏览器缓存(Chrome/Firefox)、APT缓存、临时文件清理 智能清理Snap旧版本和Docker无用数据 提供磁盘空间使用前后对比和大文件查找功能 脚本采用交互式设计确保安全性,适合定期维护开发环境、服务器和个人电脑。文章详细解析了脚本的关键功能代码,并给出了使用建议。完整脚本已开源,用户可根据需求自定义调整清理策略。
1126 1