【优化篇】telegraf+shell脚本实现秒级的服务状态异常监测与告警

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 【优化篇】telegraf+shell脚本实现秒级的服务状态异常监测与告警

【优化篇】telegraf+shell脚本实现秒级的服务状态异常监测与告警

一、场景

在《【shell脚本】Graylog服务状态异常监测与告警》 文章脚本的基础上,修改成一个检测GrayLog5.1版本opensearch状态的脚本

脚本如下

vim /opt/check_opensearch_status.sh

#!/bin/bash
LOCK_FILE=/var/log/opensearch_record.log
# 钉钉机器人 Webhook URL
WEBHOOK_URL="https://oapi.dingtalk.com/robot/send?access_token=XXXXXXXXXXXXXXXXXXXXXXX"
# 记录异常状态的文件路径
STATUS_FILE="/tmp/opensearch_status.txt"
NORMAL_STATUS_FILE="/opt/opensearch_normal_status.txt"
#echo "Active: active (running)" > /opt/opensearch_normal_status.txt
# 获取当前时间
current_time=$(date +"%Y-%m-%d %H:%M:%S")
# 获取当前 opensearch 状态
current_status=$(/usr/bin/systemctl status opensearch | grep Active | awk -F "since" '{print $1}' | sed 's/^ *//;s/ *$//')
# 读取上次记录的状态
previous_status=$(cat "$STATUS_FILE")
# 正常opensearch 状态
#Active: active (running)
normal_status=$(cat "$NORMAL_STATUS_FILE")
# 判断当前状态是否与上次记录的状态不一致
if [[ "$current_status" == "$normal_status" && "$previous_status" != "$normal_status" ]]; then
    # 发送恢复正常告警到钉钉机器人
    echo "--------------------------------"  >> ${LOCK_FILE} 2>&1
    echo `date +"%Y-%m-%d %H:%M:%S"`  >> ${LOCK_FILE} 2>&1
    echo "服务状态已恢复运行,发送dingding告警"  >> ${LOCK_FILE} 2>&1
    recovery_message="【告警通知】:$(hostname -I)的opensearch 状态已恢复正常。\n\n【时间】:$current_time \n\n【opensearch状态】:<font color=#67C23A>$current_status</font>"
    echo $recovery_message  >> ${LOCK_FILE} 2>&1
    curl -s -H "Content-Type: application/json" -d "{\"msgtype\":\"markdown\",\"markdown\":{\"title\":\"告警通知\",\"text\":\"$recovery_message\"}}" "$WEBHOOK_URL"
    # 将当前状态记录到文件
    echo "$current_status" > "$STATUS_FILE"  
    echo "--------------------------------" >> ${LOCK_FILE} 2>&1
 echo "$current_status"
elif [[ "$current_status" != "$previous_status" ]]; then
    # 发送异常告警到钉钉机器人
    echo "--------------------------------"  >> ${LOCK_FILE} 2>&1
    echo `date +"%Y-%m-%d %H:%M:%S"`  >> ${LOCK_FILE} 2>&1
    echo "服务状态异常,发送dingding告警"  >> ${LOCK_FILE} 2>&1
    alert_message="【告警通知】:$(hostname -I)的opensearch 状态异常告警!\n\n【时间】:$current_time \n\n 【opensearch状态】:<font color=#FF0000>$current_status</font>"
    echo $alert_message >> ${LOCK_FILE} 2>&1
    curl -s -H "Content-Type: application/json" -d "{\"msgtype\":\"markdown\",\"markdown\":{\"title\":\"告警通知\",\"text\":\"$alert_message\"}}" "$WEBHOOK_URL"
    # 将当前状态记录到文件
    echo "$current_status" > "$STATUS_FILE"
    echo "--------------------------------" >> ${LOCK_FILE} 2>&1
 echo "$current_status"
fi

需求:

原由于Crontab定时任务最多能实现1分钟执行一次的频率

(图片点击放大查看)

如果在1分钟内服务重启后又恢复时这种情况很大的可能是无法监测到状态异常变化的情况

下面借助telegraf的inputs.exec模块实现秒级的状态监测

具体操作如下

1、下载telegraf的rpm包并安装

https://github.com/influxdata/telegraf/releases
rpm -ivh telegraf-1.27.3-1.x86_64.rpm

(图片点击放大查看)

2、生成配置文件样本并替换修改

telegraf --sample-config --input-filter exec --output-filter graylog > telegraf.conf
mv /etc/telegraf/telegraf.conf /etc/telegraf/telegraf.conf_default
mv ./telegraf.conf /etc/telegraf/telegraf.conf
vim /etc/telegraf/telegraf.conf

(图片点击放大查看)

(图片点击放大查看)

最终的配置文件如下

[root@centos opt]# cat /etc/telegraf/telegraf.conf | grep -v  ^# | grep -v ^$ | grep -v ^.*## | grep -v ^.*#
[global_tags]
[agent]
  interval = "10s"
  round_interval = true
  metric_batch_size = 1000
  metric_buffer_limit = 10000
  collection_jitter = "0s"
  flush_interval = "10s"
  flush_jitter = "0s"
  precision = "0s"
  hostname = ""
  omit_hostname = false
[[outputs.graylog]]
  servers = ["udp://127.0.0.1:12201"]
[[inputs.exec]]
  commands = ["/opt/check_opensearch_status.sh"]
  timeout = "5s"
  name_override = "sshd_service_status_check"
  data_format = "value"
  data_type = "string"
  interval = "10s"

(图片点击放大查看)

3、测试

记得将/tmp/opensearch_status.txt 状态记录文件设置成可写

并且执行

echo "Active: active (running)" > /opt/opensearch_normal_status.txt

chmod 777 /tmp/opensearch_status.txt
systemctl stop opensearch.service 
systemctl start opensearch.service

(图片点击放大查看)

效果如下

(图片点击放大查看)

上面的interval = "10s"为10秒,也就是10秒执行一次状态监测脚本,当然你可以设置得更低。例如5s

相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
相关文章
|
18天前
|
Shell
一个用于添加/删除定时任务的shell脚本
一个用于添加/删除定时任务的shell脚本
56 1
|
4天前
|
Shell Linux 测试技术
6种方法打造出色的Shell脚本
6种方法打造出色的Shell脚本
19 2
6种方法打造出色的Shell脚本
|
9天前
|
监控 网络协议 Shell
ip和ip网段攻击拦截系统-绿叶结界防火墙系统shell脚本
这是一个名为“小绿叶技术博客扫段攻击拦截系统”的Bash脚本,用于监控和拦截TCP攻击。通过抓取网络数据包监控可疑IP,并利用iptables和firewalld防火墙规则对这些IP进行拦截。同时,该系统能够查询数据库中的白名单,确保合法IP不受影响。此外,它还具备日志记录功能,以便于后续分析和审计。
34 6
|
5天前
|
运维 监控 Shell
深入理解Linux系统下的Shell脚本编程
【10月更文挑战第24天】本文将深入浅出地介绍Linux系统中Shell脚本的基础知识和实用技巧,帮助读者从零开始学习编写Shell脚本。通过本文的学习,你将能够掌握Shell脚本的基本语法、变量使用、流程控制以及函数定义等核心概念,并学会如何将这些知识应用于实际问题解决中。文章还将展示几个实用的Shell脚本例子,以加深对知识点的理解和应用。无论你是运维人员还是软件开发者,这篇文章都将为你提供强大的Linux自动化工具。
|
1月前
|
监控 Unix Shell
shell脚本编程学习
【10月更文挑战第1天】shell脚本编程
60 12
|
1月前
|
存储 运维 监控
自动化运维:使用Shell脚本简化日常任务
【9月更文挑战第35天】在IT运维的日常工作中,重复性的任务往往消耗大量的时间。本文将介绍如何通过编写简单的Shell脚本来自动化这些日常任务,从而提升效率。我们将一起探索Shell脚本的基础语法,并通过实际案例展示如何应用这些知识来创建有用的自动化工具。无论你是新手还是有一定经验的运维人员,这篇文章都会为你提供新的视角和技巧,让你的工作更加轻松。
37 2
|
2月前
|
Shell
shell脚本变量 $name ${name}啥区别
shell脚本变量 $name ${name}啥区别
|
2月前
|
人工智能 监控 Shell
常用的 55 个 Linux Shell 脚本(包括基础案例、文件操作、实用工具、图形化、sed、gawk)
这篇文章提供了55个常用的Linux Shell脚本实例,涵盖基础案例、文件操作、实用工具、图形化界面及sed、gawk的使用。
215 2
|
27天前
|
存储 Shell Linux
【Linux】shell基础,shell脚本
Shell脚本是Linux系统管理和自动化任务的重要工具,掌握其基础及进阶用法能显著提升工作效率。从简单的命令序列到复杂的逻辑控制和功能封装,Shell脚本展现了强大的灵活性和实用性。不断实践和探索,将使您更加熟练地运用Shell脚本解决各种实际问题
20 0
|
2月前
|
网络协议 关系型数据库 MySQL
Shell 脚本案例
Shell 脚本案例
43 8