如何用Python发送告警通知到钉钉?

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 如何用Python发送告警通知到钉钉?

简说Python,号主老表,Python终身学习者,数据分析爱好者,从18年开始分享Python知识,原创文章227篇,写过Python、SQL、Excel入门文章,也写过Web开发、数据分析文章,老表还总结整理了一份2022Python学习资料和电子书资源,关注后私信回复:2022 即可领取。

一、前言

前不久,看到了明哥写的如何用Python发送警告通知到企业微信,想起来之前写过用Pytho发送指定格式数据到钉钉的服务,本文将之前的代码重构下,变成一个:利用Python监控服务器数据,然后有异常就通过钉钉发送给用户。

image.png

本项目大纲如上,项目已经开源到GitHub啦,大家可以直接点击阅读原文或者浏览器访问:https://github.com/XksA-me/DingdingBot 下载项目。

image.png

或者点击下方公众号卡片,关注「简说编程」,回复:钉钉,获取百度云下载地址。

简说编程

Python终身学习者,Go语言内卷机,数据分析爱好者,后端烧脑开发者,回复:2021,获取最新编程学习资料。

项目环境说明:

image.png

因为相关依赖较少,你可以直接在本地环境安装使用,也可以创建一个虚拟环境安装使用(Python虚拟环境推荐使用pipenv进行管理,点击我查看pipenv使用教程)。


进入环境后,输入下面pip指令进行安装:

pip3 install requests psutil apscheduler

二、开始动手动脑

2.1 创建钉钉机器人

钉钉机器人个人版只针对群聊,所以我们需要先建一个群,打开钉钉,然后创建一个群聊,随便拉2个人,创建成功后,可以把这两个好友再移除群聊(有点损?!),点击群设置中的智能群助手。

image.png

进入到机器人管理页面,点击添加机器人后的三点按钮,进入机器人选择页面。

image.png

我们下滑页面,选择自定义机器人。

image.png

给机器人取个名字,然后需要进行安全设置,选择加签方式(数据传输是需要其当作参数,避免安全问题),复制好里面的内容。点击完成,即可完成创建。

image.png

复制Webhook链接,后面我们就是通过Python向这个url发送post请求进行数据传输,你可以点击下设置说明查看机器人相关功能和配置方法。

image.png

如果后面忘记了前面设置的加签密钥或者Webhook地址,可以群管理->智能群助手->点击对应机器人的三点按钮 查看或修改。

image.png

这样我们就创建好了钉钉机器人,接下来,我们只需编编写好Python代码即可。

image.png

2.2 编写一个简单钉钉消息传输助手

2.2.1 计算数字加签内容,为自动发送消息做准备

前面我们设置了加签的安全防护方法,所以我们在进行数据传输之前,首先得先计算下钉钉机器人数字签名内容,钉钉文档上有非常详细的说明哈,并给了各种语言的计算方法,我们直接拿来调试即可。

官方文档地址:https://developers.dingtalk.com/document/robots/customize-robot-security-settings

image.png

计算过程你可以不用理解(下面代码),修改secret为你自己的即可。

import hmac
import hashlib
import base64
import urllib.parse
from time import time
'''
钉钉机器人数字签名计算
'''
def get_digest():
    # 取毫秒级别时间戳,round(x, n) 取x小数点后n位的结果,默认取整
    timestamp = str(round(time() * 1000))
    secret = '你自己的加签内容'
    secret_enc = secret.encode('utf-8')  # utf-8编码
    string_to_sign = '{}\n{}'.format(timestamp, secret)  # 字符串格式化拼接
    string_to_sign_enc = string_to_sign.encode('utf-8')  # utf-8编码
    hmac_code = hmac.new(secret_enc, string_to_sign_enc, digestmod=hashlib.sha256).digest()  # HmacSHA256算法计算签名
    sign = urllib.parse.quote_plus(base64.b64encode(hmac_code))  # Base64编码后进行urlEncode
    #  返回时间戳和计算好的编码拼接字符串,后面直接拼接到Webhook即可
    return f"&timestamp={timestamp}&sign={sign}"

image.png

2.2.2 Post请求发送数据,实现自动发送消息到钉钉

image.png

我们直接向我们自己的Webhook地址发送post请求传输数据即可,这里我使用的markdown数据类型,还有很多其他数据格式可以选择,如文本、跳转卡片、信息流卡片等,非常丰富。

大家有兴趣可以前往官网查看:https://developers.dingtalk.com/document/robots/custom-robot-access?spm=ding_open_doc.document.0.0.62846573TCzj7A#topic-2026027

需要注意的是,如果你需要机器人在发送消息的时候还@指定的人,那么你需要在内容中(下面代码中的@xxxxxx)也加上@指定人的钉钉手机号

# 简单发送markdown消息
def warning_bot():
    data = {
        "msgtype": "markdown",
        "markdown": {
            "title": "【简说Python】今日福利",
            "text": """### 福利介绍
@xxxxxx 请关注公众号:**简说Python**,回复2021,即可获取编程学习资料。\n
>![](https://ucc.alicdn.com/images/user-upload-01/246a90c55c4e46dca089731c5fd00833.png)
**[老表的个人博客,已上线](https://python-brief.com/)**\n
            """
        },
        "at": {
          "atMobiles": [
              "xxxxxx"  # 要@对象的手机号
          ],
        }
    }
    # 机器人链接地址,发post请求 向钉钉机器人传递指令
    webhook_url = '你的Webhookurl'
    # 利用requests发送post请求
    req = requests.post(webhook_url+get_digest(), json=data)

显示效果如下(上面是聊天消息栏,显示了我们指定的标题;下面是群聊内,显示了markdown渲染后的效果),好看,记得点赞(想不到,到这里,就有一千字了~点赞呐 转发呐 支持下作者~):

image.png

2.3 编写统计系统基本数据的函数

在Linux里我们一般利用top指令来查看CPU的使用情况,主要看以下几个数据:进程CPU使用率、负载情况、虚拟/物理内存使用情况,所以本部分我们将利用Python获取相关数据。

image.png

这里我们利用psutil,Process and System utilities(进程和系统实用工具),用于检索系统运行的进程和系统使用率(CPU,内存,磁盘,网络,传感器)信息的跨平台库,通过几行代码就可以获取到本地系统相关数据啦~(本文点赞过50,就更新一期专门介绍psutil的文章)~

import psutil as psu
import os
'''
云服务器基础数据
服务器已运行时间、负载状态、CPU使用率、运行内存使用率、物理内存使用率
'''
def get_server_info():
    # 获取系统的基本数据
    # 服务器已运行时间=现在时间和服务器开启时间之差
    run_times = str(timedelta(seconds=int(time())-int(psu.boot_time())))
    # 系统负载状态(最近1、5、15分钟)
    loadavg = [round(i, 2) for i in os.getloadavg()]
    # CPU使用率 测试间隔0.3秒
    cpu_in_use = psu.cpu_percent(interval=0.3)
    # 系统运行内存使用率
    # 内存使用率大于80% 触发报警
    vm_in_use = psu.virtual_memory().percent
    vm_available = round(psu.virtual_memory().available/(1024**3), 2)
    # 系统物理存储使用率
    disk_in_use = psu.disk_usage('/').percent
    disk_free = round(psu.disk_usage('/').free/(1024**3), 2)
    # 还可以添加进程、线程等信息,后面专门安排一篇文章写
    base_info = f"""> 您的云服务器已运行-{run_times},机器负载情况为(最近1、5、15分钟):{loadavg}
- 目前CPU使用率为:{cpu_in_use}%,
- 系统运行内存使用率为:{vm_in_use}%,
- 剩余可用运行内存为:{vm_available}GiB,
- 系统存储内存使用率为:{disk_in_use}%,
- 剩余可用存储内存为:{disk_free}GiB
<br>**{'机器CPU使用率正常' if cpu_in_use<=80 else '机器CPU使用率过高,可能触发预警'}**
"""
    return base_info, loadavg, cpu_in_use, vm_in_use, disk_in_use

代码注释写的都还比较清楚啦,主要是调用了psutil内置的一些方法,我们获取到了操作系统的一些基本数据,另外系统负载情况我们是利用os模块的内置方法getloadavg获取的,最后对数据进行了拼接,拼接的时候我们使用到了f-string点赞破50出一期文章给大家介绍,这里主要给大家额外说下GB和GiB的区别:

1GB = 1000MB = 1000*1000 KB = 1000*1000*1000 B
1GiB = 1024MiB = 1024*1024 KiB = 1024*1024*1024 B
# 有机会和大家细聊 有意思

2.4 编写一个监控数据的函数

接下来我们还需要写一个监控函数,这里只做了两个简单监控(项目已开源,后面有时间我也会),一个是对负载的情况进行监控,另外一个是对CPU使用率进行监控,设置了两个阀值:CPU使用率70%和负载(1分钟和15分钟)70%*CPU数量,当超过阀值就返回对应报警内容,没有问题就返回ok

image.png

来自阮一峰老师的博客

'''
服务器预警设置
本篇先简单点,只设置负载和CPU使用率预警
'''
def get_warning():
    base_info, loadavg, cpu_in_use, vm_in_use, disk_in_use = get_server_info()
    # 首先判断服务器负载情况
    # 只看近一分钟和近十五分钟情况 应该<= 0.7*CPU数量
    loadavg_max = psu.cpu_count() * 0.7
    loadavg_max = 0.01   # 测试使用,正式环境请注释掉
    if loadavg[0] >= loadavg_max and loadavg[2] >= loadavg_max:
        warning1 = f'⚠️<font color="#d30c0c">【警告】</font>您的云服务器当前负载率为(最近1、5、15分钟)-{loadavg},负载率已达<font color="#d30c0c">{round(loadavg[2]/loadavg_max, 2)*100}%</font>,请及时检查系统是否存在问题,也可以@我,发送:基础信息,查看云服务器基础信息。'
        return warning1
    if cpu_in_use >= 80:
        warning2 = f'⚠️<font color="#d30c0c">【警告】</font>您的云服务器当前CPU使用率为<font color="#d30c0c">{cpu_in_use}%</font>,请及时检查系统是否存在问题,也可以@我,发送:基础信息,查看云服务器基础信息。'
        return warning2
    return 'ok'

本来还想写一个功能的,就是前面说的时时查看数据(@下机器人,给出对应指令就行),但是到这里发现这个功能需要新建一个企业机器人,下次再给大家分享吧~

image.png

2.5 写定时任务

在Linux上面,我们可以直接利用之前讲过的宝塔面板设置定时任务,可以看Linux里的宝塔,真正的宝塔!详细教程,这里我们自己写定时任务,我们用到了apscheduler这个第三方库,关于这个库又可以写一篇长文介绍了,这里就不展开说了,本文点赞如果破100,我下周安排(老表在线卑微求赞!)。

from apscheduler.schedulers.blocking import BlockingScheduler
'''
1、每天早上9:00 发送服务器情况到钉群
'''
def every_day_nine():
    message = get_server_info()[0]
    title = '服务器基础信息'
    warning_bot(message, title)
'''
2、时时预警(每30秒检测一次)
'''
def every_seconds_30():
    warning = get_warning()
    if warning != 'ok':
        title = '【⚠️警告】服务器故障'
        warning_bot(warning, title)
'''
3、@机器人,自动问答设置
下一篇安排,需要另外新建一个企业机器人
和群聊机器人流程不一样~
'''
# 选择BlockingScheduler调度器
sched = BlockingScheduler(timezone='Asia/Shanghai')
# job_every_nine 每天早上9点运行一次  日常发送
sched.add_job(every_day_nine, 'cron', hour=21, minute=55)
# every_seconds_30 每30s执行一次  数据监控
sched.add_job(every_seconds_30, 'interval', seconds=3)
# 启动定时任务
sched.start()

add_job设置定时任务中的interval表示周期性触发触发,比如每分钟;cron是apscheduler中功能最强的触发器,可以具体到每个月的某个时间触发,比如每天早上9:00。

2.6 运行,来看看效果啦

目前都属于自动触发,然后发送消息,首先是每日定时早上9:00发送服务器基本情况。

其次是每30s进行一次服务器数据检测(CPU使用率和负载),当数据超过阀值时,触发报警,发送消息提醒。

image.png

2.7 给程序创建守护进程

经过上面我们完成了功能开发,但是会发现,一旦我们关闭程序,提醒监测服务也会停止,所以我们需要创建一个守护进程来保护我们的进程。

以我自己为例,我们登录宝塔面板后,进入/etc/systemd/system文件夹下,新建一个ding_bot.service文件,并写入下面内容:

[Unit]
Description=Dingding Bot service
[Service]
Type=forking
ExecStart=/usr/bin/python3 /root/Project/Little_project/DingdingBot/scheduler.py
KillMode=process
Restart=on-failure
RestartSec=3s
[Install]
WantedBy=multi-user.target

简单解释下Service里设置的含义,Type=forking表示程序启动后,会放到后台运行;ExecStart服务的具体执行指令(执行scheduler.py文件即可);KillMode=process表示服务停止的同时也会杀死程序主进程;Restart=on-failure表示系统发生意外导致程序退出时,程序自动重启。

保存好文件后,我们直接终端内执行下面指令即可开启进程守护,运行后会进入守护进程状态,我们可以按ctrl+c退出,不会影响守护进程:

systemctl start ding_bot

代码修改后,需要重启守护进程,修改代码才会生效,重启指令如下:

systemctl restart ding_bot

如果不想设置这个守护进程了,执行stop指令可以停止该service(程序也会停止),指令如下:

systemctl stop ding_bot

关于守护进程system其他的相关指令和操作可以自行搜查哈,也可以留言区交流,展开讲又是一篇推文啦~点赞破50,安排~

三、下期预告

整体效果感觉还不错,嘿嘿嘿,后面有时间会继续优化,大家有什么额外想法和需求,也可以留言说说哈。

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情:&nbsp;https://www.aliyun.com/product/ecs
相关文章
|
3月前
|
缓存
ecs-centos分区空间大于70时发送钉钉告警并清理
当分区空间大于70时,开始清理并发送钉钉告警。
39 1
|
4月前
|
机器人 关系型数据库 MySQL
shell脚本实现文件自动清理并推送钉钉机器人告警
shell脚本实现文件自动清理并推送钉钉机器人告警
60 1
|
4月前
|
运维 监控 安全
调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
90 0
|
6月前
|
监控 安全 机器人
通过GitHub Actions给微信公众测试号和钉钉群定时推送消息(Python)
通过GitHub Actions给微信公众测试号和钉钉群定时推送消息(Python)
97 0
|
3月前
|
弹性计算 监控 Python
有趣的python脚本【监控公司出口ip变化并发送至钉钉群】
因为公司出口ip是动态的(拨号方式),重新拨号后就会变化。因此及时发现ip变化显得尤为重要(比如及时ecs安全组中的ip),另外可把py脚本打包成exe并加到办公电脑的计划任务里。
37 2
有趣的python脚本【监控公司出口ip变化并发送至钉钉群】
|
3月前
|
机器人 Linux 数据安全/隐私保护
Python办公自动化【Windows中定时任务、OS/linux 系统定时任务 、Python 钉钉发送消息、Python 钉钉发送图片】(九)-全面详解(学习总结---从入门到深化)
Python办公自动化【Windows中定时任务、OS/linux 系统定时任务 、Python 钉钉发送消息、Python 钉钉发送图片】(九)-全面详解(学习总结---从入门到深化)
73 0
|
4月前
|
安全 机器人 Shell
shell脚本实现Linux磁盘空间超过阈值自动钉钉机器人告警
shell脚本实现Linux磁盘空间超过阈值自动钉钉机器人告警
58 0
|
4月前
|
运维 监控 安全
【优化篇】调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
【优化篇】调用钉钉机器人API接口将堡垒机安全运维告警单发给运维人员
76 0
|
4月前
|
机器人 Linux 数据安全/隐私保护
Python办公自动化【Windows中定时任务、OS/linux 系统定时任务 、Python 钉钉发送消息、Python 钉钉发送图片】(九)-全面详解(学习总结---从入门到深化)(下)
Python办公自动化【Windows中定时任务、OS/linux 系统定时任务 、Python 钉钉发送消息、Python 钉钉发送图片】(九)-全面详解(学习总结---从入门到深化)
67 0
|
4月前
|
Linux Python Windows
Python办公自动化【Windows中定时任务、OS/linux 系统定时任务 、Python 钉钉发送消息、Python 钉钉发送图片】(九)-全面详解(学习总结---从入门到深化)(上)
Python办公自动化【Windows中定时任务、OS/linux 系统定时任务 、Python 钉钉发送消息、Python 钉钉发送图片】(九)-全面详解(学习总结---从入门到深化)
42 0