前言
之前写过一个简单的脚本,现在看起来有很多简化空间,就水一发
脚本
脚本逻辑是定期抓取服务器的一些信息,如果服务器负载高就储存起来并发送告警
原脚本如下
#!/bin/bash # author chenjiao #获取内存信息 MEMTOTAL=$(awk '/^MemTotal/ {print $2}' /proc/meminfo) MEMAV=$(awk '/^MemAvailable/ {print $2}' /proc/meminfo) MEMUSED=$(echo "$MEMTOTAL - $MEMAV" |bc) MEMINFO=$(echo "$MEMUSED * 100 / $MEMTOTAL"|bc) if [[ $MEMINFO -gt 70 ]];then echo "Memory usage is too high: $MEMINFO%" >> /tmp/info.txt fi #获取 / 磁盘信息 DISKTOTAL=$( df |grep -w "/"|awk '{print $2}') DISKUSED=$( df |grep -w "/"|awk '{print $3}') DISKINFO=$(echo "$DISKUSED * 100 / $DISKTOTAL" |bc) if [[ $DISKINFO -gt 80 ]];then echo "Disk usage is too high: $DISKINFO%" >> /tmp/info.txt fi if [[ -f /tmp/info.txt ]];then cat /tmp/info.txt |wall fi mv /tmp/{info.txt,.info.txt.`date +"%Y.%m.%d-%H:%M:%S"`}
调整之后
#!/bin/bash # author chenjiao set -e # set -e 是Shell的一个选项,也被称为“Exit on Error”选项。当这个选项被激活时,如果任何一个命令出现了非零的返回状态(也就是命令执行失败),Shell就会立即退出并返回该错误状态码。 MEMINFO=$(free |awk 'NR==2{printf "%d\n", $3*100/$2}') #获取内存信息 # 第二行是内存信息,因此用NR==2来取,同时也可以用 free |awk '/^Mem/ {printf "%.2f%\n", $3*100/$2}' 取 if [[ $MEMINFO -gt 70 ]];then echo "Memory usage is too high: $(free |awk 'NR==2{printf "%.0f%\n", $3*100/$2}')" >> /tmp/info.txt fi # 当内存占用大于百分之七十就抓取数据存放 #获取 / 磁盘信息 DISKINFO=$(df |awk '$NF=="/"{printf "%d\n", $3*100/$2 }') if [[ $DISKINFO -gt 70 ]];then echo "Disk usage is too high: $(df |awk '$NF=="/"{printf "%s\n", $5 }')" >> /tmp/info.txt # 这里是直接把df输出的百分比记录下来了,也可以自己计算 df |awk '$NF=="/"{printf "%.2f%\n", $3*100/$2 }' fi # 当 / 占用大于百分之七十就抓取数据存放 #获取CPU负载信息 CPU_LOAD_5MIN=$(top -bn 1 |awk 'NR==1{printf "%.2f", $(NF-2)}') # 转换成浮点数,方便bc比较大小 CPU_LOAD_10MIN=$(top -bn 1 |awk 'NR==1{printf "%.2f", $(NF-1)}') CPU_LOAD_15MIN=$(top -bn 1 |awk 'NR==1{printf "%.2f", $NF}') CPU_NUMS=$(lscpu |awk '/Socket/{print $NF}') if [[ $(echo "$CPU_LOAD_5MIN > $CPU_NUMS" | bc -l) = 1 ]];then echo -e "5 minute CPU load is too high: $CPU_LOAD_5MIN\n" >> /tmp/info.txt fi if [[ $(echo "$CPU_LOAD_10MIN > $CPU_NUMS" | bc -l) = 1 ]];then echo -e "10 minute CPU load is too high: $CPU_LOAD_10MIN\n" >> /tmp/info.txt fi if [[ $(echo "$CPU_LOAD_15MIN > $CPU_NUMS" | bc -l) = 1 ]];then echo -e "15 minute CPU load is too high: $CPU_LOAD_15MIN\n" >> /tmp/info.txt fi # 检查是否需要告警 if [[ -f /tmp/info.txt ]];then cat /tmp/info.txt |wall fi mv /tmp/{info.txt,.info.txt.`date +"%Y.%m.%d_%H:%M:%S"`} > /dev/null 2>&1 # 将标准错误输出转换为标准输出并丢到 /dev/null
设置crontab
先给x权限
[root@kibana sh]# chmod +x simple_check.sh [root@kibana sh]# pwd /root/sh
再设置crontab
[root@kibana sh]# crontab -e crontab: installing new crontab 0 * * * * /root/sh/simple_check.sh
说明
这次简化脚本其实用到了一些awk的命令处理,具体的参数或者格式化在下面
在 awk 中,NF 和 NR 都是内置变量,分别表示当前记录(或者行)的字段数和行号。 NF:代表 Number of Fields,也就是当前行的字段数。默认情况下,awk 以空格为分隔符将每一行划分成多个字段,然后可以通过 $1、$2 等变量指明各个字段的内容。使用时,我们可以根据需要在 awk 脚本中修改字段的分隔符,例如: awk -F',' '{print $1, $2, $NF}' file.csv 在这个例子中,我们用逗号(,)替换了默认的空格作为分隔符,然后指定打印第一和第二个字段和最后一个字段的内容。 同时如果这里的NF不加 $ 就会da'y打印最后一个字段的数字序号 NR:代表 Number of Records,也就是当前 awk 处理的行号。NR 变量在 awk 处理每一行时自动加一,通常用于输出文件的行号或计算文件总行数等场景。例如: awk '{print NR, $0}' file.txt 这个命令会打印出每一行前面带有行号的格式化输出,其中 $0 代表整行文本字符串。 awk 'NR==1{print $0}' file.txt 这个命令会打印出第一行字符串。 需要注意的是,NF 和 NR 都只是内置变量,不能在 awk 脚本中赋值或修改它们的值。同时,在awk脚本中也可以使用其它内置变量和关键字,例如 $0、$1、$2、BEGIN、END 等等。 awk 可以使用 printf 函数来实现输出格式化,常用的参数包括输出的宽度、精度、填充字符等。printf 语法类似于 C 语言中的 printf 函数,格式为: printf format, item1, item2, ... 其中 format 是格式字符串,可以包含以下元素: %d:表示按照整数格式输出; %f:表示按照浮点数格式输出; %s:表示按照字符串格式输出; %c:表示按照字符格式输出; %X:表示按照十六进制大写格式输出; %x:表示按照十六进制小写格式输出。 以及以下可选项: -:表示左对齐; w:表示占用 w 个字符,不足则用空格填充; .n:表示保留 n 位小数(仅针对浮点数)。 假设我们有一个文件 data.txt,内容如下: 1001 tom 87 1002 jack 91 1003 mary 79 我们可以使用 awk 命令和 printf 函数将其转化为指定的输出格式: awk '{printf("ID:%-4d Name:%-6s Score:%-.2f\n", $1, $2, $3)}' data.txt 上面的命令中,我们使用 printf 函数创建了一个格式化字符串 ID:%-4d Name:%-6s Score:%-.2f\n,其中 %d 表示输出整数,%-4d 表示左对齐占 4 个位置;%-6s 表示左对齐占 6 个位置;%-.2f 表示保留两位小数的浮点数。注意,格式化字符串中可以使用 \n 换行符来使输出结果更好看。 输出结果如下所示: ID:1001 Name:tom Score:87.00 ID:1002 Name:jack Score:91.00 ID:1003 Name:mary Score:79.00 如果需要同时处理多个文件或者管道输入,可以使用 awk '{...}' file1 file2 file3 ... 的方式来实现。