数据库监控最佳实践:Prometheus+Grafana巡检体系搭建

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
PolarDB Agent Express,2核4GB
RDS AI 助手,专业版
简介: 讲述数据库巡检体系的搭建过程,包括巡检指标设计、Prometheus+Grafana实战、告警阈值设置、故障预测,附避坑清单

📌 今日关键词:数据库巡检、Prometheus、Grafana、告警阈值、故障预测、运维体系

大家好,我是数据库小学妹 👋

有段时间,我天天在救火。一个月里,凌晨3点被电话叫醒了4次。磁盘满了两次,连接爆了一次,还有一次主从断了我不知道,第二天才发现。

白天也不消停。开发找我说查询慢,运维找我说要重启。我每天到工位第一件事,是看有没有新的告警邮件。

后来实在受不了,花了两周搭了一套巡检体系。现在问题发生前就能收到告警,终于不用半夜被电话吵醒了。

今天把这套方案整理出来。

为什么需要巡检

我一开始觉得,有告警就行了。结果告警只在问题爆发时响,响的时候已经晚了。

数据库问题大多是慢慢积累的。表空间涨、慢查询多、复制延迟变大,这些事情一点点发生。等你察觉的时候,业务已经受影响了。

巡检就是在问题发生前收到预警,提前处理。

巡检指标设计

我一开始以为关注慢查询就够了。后来连接爆了一次,磁盘满了一次,才发现这两件事跟慢查询一点关系都没有。

巡检指标要从五个维度来看。

连接相关:看当前连接数和活跃连接数。连接数超过最大值的80%就该告警。活跃连接长期高,说明有慢查询或者锁等待。

查询相关:看慢查询数量和QPS。慢查询突然变多,说明有性能问题。全表扫描比例高的话,索引设计可能有问题。

锁相关:看锁等待数量和死锁次数。有锁等待说明有并发冲突,锁等待时间长会影响业务响应。

复制相关:看主从延迟和复制状态。延迟超过几秒就要关注,复制断了要立即处理。

存储相关:看表空间使用率和碎片率。表空间超过80%就该告警,碎片太多影响查询性能。

Prometheus + mysqld_exporter 实战

方案选的Prometheus + Grafana。mysqld_exporter采集指标,Prometheus存储和告警,Grafana做展示。

我第一次装mysqld_exporter的时候,踩了个坑。下载的是最新版,结果跟服务器上的MySQL 5.7不兼容,采集直接报错。后来换了v0.15.0才搞定。

安装步骤:

# 下载(注意版本兼容性)
wget https://github.com/prometheus/mysqld_exporter/releases/download/v0.15.0/mysqld_exporter-0.15.0.linux-amd64.tar.gz

# 解压
tar xvf mysqld_exporter-0.15.0.linux-amd64.tar.gz

# 配置数据库连接
export DATA_SOURCE_NAME="exporter:password@(localhost:3306)/"

# 启动
./mysqld_exporter

mysqld_exporter默认采集的指标已经很全了。连接数、查询数、锁等待、复制延迟都有。需要自定义的话可以加.my.cnf配置。

Prometheus配置抓取目标:

scrape_configs:
  - job_name: 'mysql'
    static_configs:
      - targets: ['localhost:9104']

告警阈值怎么设

这部分我走过弯路。

一开始我把阈值设得很紧,连接数超过50%就告警。结果三天收到200多条通知,我直接麻木了。真出问题的时候,告警淹在里面根本没看到。

后来调整策略,分两层设。

静态阈值是硬指标,超过就必须告警。连接数超过最大值的80%,表空间超过80%,主从延迟超过10秒,慢查询每分钟超过100个。

动态基线是和过去7天同时段对比。QPS突增突降超过50%告警,响应时间突增超过100%告警。动态基线能捕捉业务异常,比如某个时段突然有大量请求。

有些数据库自带诊断工具,比如金仓的KDDM可以基于性能快照自动分析瓶颈,还能给出优化建议。如果你们用的是这类数据库,不妨先看看它自带的监控能力,可能比自己搭Prometheus省不少事。

Grafana 巡检看板

看板我设计了三个视图,每个对应一个使用场景。

日常巡检视图:连接数、QPS、慢查询趋势、主从延迟、复制状态、表空间使用率。每天早上到工位扫一眼,心里有数。

故障排查视图:锁等待详情、慢查询TOP10、等待事件分布。出问题的时候用这个视图定位,比一条条跑SQL快多了。

容量规划视图:表空间增长趋势、连接数增长趋势、QPS变化趋势。用来做容量预估,提前跟领导申请扩容资源。

故障预测

巡检做得好,真的能预测故障。

说个真实案例。有天我看容量规划视图,发现表空间每周涨10%。当时心想"应该还好吧",随手算了一下——两个月后磁盘就满了。幸亏多看了一眼,提前把半年前的日志表归档清理掉。

还有一次更险。连接数每天高峰期都在涨,我以为是业务增长的正常现象。后来画了条趋势线,月底就会碰到max_connections上限。赶紧调整连接池配置,优化了长连接释放。

主从延迟那个案例,排查过程不太顺利。延迟从0.5秒涨到2秒,我一开始以为是主库写入太快。查了半天发现是从库磁盘IO扛不住,加了块SSD才解决。

避坑清单

告警别设太紧,分级很重要。 我刚搭完的时候,所有告警都走同一个通道,全发到钉钉群。结果群里一天几十条告警,大家直接屏蔽了。后来改成严重问题打电话,一般问题发消息,才恢复正常。巡检频率也是,太频繁浪费资源,太稀疏发现不了问题。我现在是每5分钟采集一次,每天汇总一次报告。

看板别搞太多,三个视图足够。 我见过有团队搞了十几个看板,结果谁都不看。日常巡检、故障排查、容量规划,该有的都有了。

告警通道别只配一个。 这是我最惨的一次教训。我把告警发到公司邮箱,有次出差三天没看邮件。回来发现从库复制断了两天没人知道。现在告警分两个通道:邮件留底,IM群实时推送,严重的直接打电话。

趋势判断

巡检体系不会一直停在Prometheus + Grafana这个阶段。

我觉得接下来有两个方向值得关注。

一个是智能基线。现在动态基线还是我手动调的规则,未来应该能用机器学习自动学习业务模式。比如周末和工作日的QPS曲线不一样,系统自己就能识别出来。

另一个是自动修复。告警之后自动执行一些操作——连接满了自动杀空闲查询,磁盘快满了自动清理临时文件。简单场景已经有了,复杂场景还在摸索。

AIOps概念很大,说的是把日志、指标、变更记录关联分析。现阶段落地的不多,但方向是对的。目前国产数据库中,金仓已经在做"的卢"运维智能体,能自动发现异常、自动分析并触发告警,故障预警准确率据说能到98%以上。这个方向挺值得跟进的。


你们的巡检是怎么做的?有没有踩过什么坑?评论区聊聊 👇

我是数据库小学妹,咱们下篇见 👋

相关文章
|
4天前
|
人工智能 定位技术 SEO
我学 GEO 第 15 天:终于知道AI GEO该如何做?
我是暴走的莉莉酱,边旅行边研究AI GEO的数字游民。专注普通人如何提升“AI可见度”——让AI在回答用户问题时准确识别、理解并推荐你。不讲玄学,只做可测、可调、可持续的GEO实践。
395 124
|
6天前
|
机器学习/深度学习 人工智能 调度
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
HappyHorse 1.1 是新一代视频生成大模型,全面升级动态表现力、角色一致性、指令遵循、视觉质感与音画协同能力。支持I2V/T2V/R2V三类生成,适配短剧、电商广告、品牌营销等场景,提供高质、流畅、可控的AI视频生产力。
669 4
🐴 HappyHorse 1.1 现已上线阿里云百炼!快来查收模型使用指南,现在调用享 6 折~
|
4天前
|
缓存 人工智能 运维
阿里云618百炼大模型Qwen3.7-Max功能、免费试用、订阅计费、配置接入详解
Qwen3.7-MAX是阿里云百炼平台推出的通义千问3.7系列旗舰大语言模型,专为智能体时代复杂任务打造,依托阿里云全域算力与自研技术,在逻辑推理、长文本处理、代码工程、长周期自主执行等领域达到行业顶尖水平。2026年618期间,该模型推出多重免费试用权益、按量计费5折、订阅套餐优惠等专属福利,覆盖个人开发者、团队与企业全场景需求,以下从核心功能、免费试用、订阅计费、配置接入四方面展开详细解析。
389 123
|
2天前
|
人工智能 自然语言处理 API
阿里云Token Plan团队版解析:功能、三档套餐与省钱订阅指南
阿里云百炼平台推出的Token Plan团队版,是面向企业与团队的AI大模型订阅服务,以Credits为统一计量单位,整合文本与图像生成模型,提供团队管理、数据安全、多工具兼容等核心能力,解决团队零散订阅AI服务的管理混乱、成本失控、数据安全等痛点。本文将从核心定位、套餐详情、计费规则、团队管理、工具兼容、便宜订阅技巧等方面,全面解析Token Plan团队版,帮助企业与团队高效、低成本地使用AI服务。
294 108
|
17天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
3天前
|
存储 人工智能 数据可视化
别再手动复制 Skill 了:多 Agent 时代的 Skill 管理方案
多 Agent 场景下 Skill 的统一管理与同步。
223 124
|
10天前
|
缓存 人工智能 运维
GLM 5.2自托管全流程实战:硬件选型、vLLM/SGLang部署与成本盈亏测算
2026年智谱发布GLM 5.2超大混合专家模型,区别于以往仅开放API的闭源大模型,该模型权重以MIT开源协议对外发布,企业与开发者可完整下载、本地审计、私有化部署,实现数据不出环境、自定义微调、自主调度推理资源。GLM 5.2拥有753B总参数,原生支持百万级上下文窗口,在代码生成、长文档推理、数学逻辑等多项基准测试中对标国际顶尖商用模型,是首款可完整自托管的前沿代码向大模型。
834 0
|
3天前
|
SQL 存储 运维
日志能不能改?SLS LogStore 原生支持更新和删除了
随着日志承载的业务语义越来越多,数据订正、回填、清理等需求变得越来越常见。SLS 现已为 LogStore 提供原生 update/delete 能力——支持按 RowID 精确修改,按查询条件批量操作,类似计费调账、标签刷新、反馈回填等场景都可以直接在 LogStore 内完成闭环。
190 124