基于Grafana的监控报警平台

本文涉及的产品
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 简介 监控报警平台以Grafana为基础,主要功能是将收集存储的数据按照不同维度、不同应用、不同用户进行配置化的展示;为了保证数据安全,每个团队只能看到自己的应用数据。同时对不同维度的数据,可以进行报警配置,根据最常用的报警方式,提供了钉钉报警、邮件报警、webhook报警三种方式。

简介

监控报警平台以Grafana为基础,主要功能是将收集存储的数据按照不同维度、不同应用、不同用户进行配置化的展示;为了保证数据安全,每个团队只能看到自己的应用数据。同时对不同维度的数据,可以进行报警配置,根据最常用的报警方式,提供了钉钉报警、邮件报警、webhook报警三种方式。
平台地址根据访问用户的不同,如下:
集团内部用户:open-monitor.XXX.com(内部用户可ata搜索监控报警平台)
集团外部用户:open-monitor.1688.com

功能

好的功能,除了完成用户的基本需求外,另外很重要的一点就是用户操作的便捷性、用户体验的良好性。所以监控报警平台根据用户来源不同,分为了外部用户ISV和内部用户(集团员工)。在提供基本的数据展示、报警配置等功能的基础上,针对不同用户还提供了便于操作的默认大盘,数据隔离等等特性。

基础功能

数据展示

不管何种数据,只要是用户登录后,配置了自己所在组织的数据源,那么数据都可以进行展示。如下图:
image

报警提示

针对展示的业务数据或者系统数据,当某些值超过阈值时,需要对相关人员进行报警提示。如下图:
image

权限管理

提供了组织管理,团队管理,用户管理等基础功能,思路如下:
image.png

外部用户

针对外部用户ISV,为了最大程度的减少他们的操作,提供更便捷的系统,监控报警平台根据他们所拥有的appkey信息,自动生成了监控报警大盘,不需要任何配置,只需要对报警阈值进行适当调整即可。同时为了数据安全,ISV用户默认没有修改权限,由我们的开发或者运营相关人员进行操作。如下图展示了用户登录后系统默认创建的两个展示大盘。
image.png

内部用户

针对内部用户,给与了适当放权。每个组织的第一个登录平台的人,是该组织的管理员,后续登录的人员默认作为浏览者。如果需要升级权限,第一个登录的人进行角色的更改即可,以此保证了管理的有序性。如下图:
image
每个组织可能有多个应用,每个应用都是不同类型。比如有业务的应用(会员中心,商品中心、交易中心等),系统的应用(DB管理中心,压力测试中心等),如果都房子一起就有些混乱。我们还提供了创建文件夹的功能,因此可以根据不同类型的业务放入不同的文件夹,管理清晰方便。如下图:
image.png
实际情况中,一个人可能属于多个组织,那么该组织的管理员邀请一下该人,便可以进入该组织。如果有多个组织,可以自由切换到不同的组织,在不同的组织中,只能看到当前所在组织的相关大盘等数据。如下图:
image

架构

系统支持内部用户和外部用户访问,根据域名进行了区分。所有请求进入后,根据不同域名,分发到不同的代理层,经过代理层处理,用户进行登录操作,登录完成后进入Server端处理请求。如下图:
image.png

Buc-proxy

是为开源软件控制台提供的反向代理服务. 用于统一登录和权限控制。对其进行了修改,适合当前场景需求。整体流程如下图:
image.png

ISV-proxy

该代理是针对外部用户ISV的,使用zuul进行了前置filter处理,同时集成TBSession管理登录,自定义Filter获取Server端需要信息。如下图:
image.png

展示

组织管理员可以创建自己的大盘,进行不同数据的展示。
image.png
Grafana提供了各种展示数据的插件,极大地满足了展示的需求。展示的数据既有来自sls的数据,也有来自hitsdb的数据。
如下图:
image.png

报警

目前系统展示插件中支持报警的只有Graph,可以针对不同的指标设置不同的报警规则和通知方式。根据常用报警方式,完全支持了钉钉报警,邮件报警,webhook报警,短信报警因为签名问题暂时不对外开放。如下图:

钉钉报警

根据钉钉机器人可对钉钉群发送消息这一特性,对报警内容进行了重写,展示了报警状态(报警/恢复)、报警的具体链接、报警的原因。
image

邮件报警

如果需要将报警信息发送邮件,可以直接在创建报警的地方选择type为email即可。填写接收报警信息的邮箱地址。邮件报警内容包括:报警提示、报警原因、报警页面链接、报警列表链接
image

webhook报警

如果希望自己处理报警信息,那么可以使用webhook,会把报警信息都发送给指定的server,然后自行处理。

未来工作

1、目前如果一个人有多个展示大盘,登录后并没有直接显示,而是显示的Home页,为了让用户更直接的看到大盘信息,后边会选择一个默认打监控大盘或者用户最关注的大盘,登录后直接定位显示。
2、目前如果在展示图表中使用了变量,那么报警会无法使用,为了更全面的支持报警,做到报警无死角,同时又让用户配置更方便更灵活,需要对此进行优化
3、目前短信由于涉及费用问题,并且短信内容长度有限制,暂未对外开放。后期如果合适,会开放短信报警

总结

系统提供了权限管理,人员管理,数据展示与报警等各种功能,基本满足了需求。但是同时也存在问题,比如在报警、数据源支持hbase类型等,仍然需要去不断的完善,有问题随时可联系。

相关实践学习
通过可观测可视化Grafana版进行数据可视化展示与分析
使用可观测可视化Grafana版进行数据可视化展示与分析。
目录
相关文章
|
14天前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
84 3
|
13天前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
74 0
|
5月前
|
Prometheus 监控 Cloud Native
基于Prometheus和Grafana的监控平台 - 环境搭建
基于Prometheus和Grafana的监控平台 - 环境搭建
|
3月前
|
Prometheus 监控 数据可视化
Grafana 插件生态系统:扩展你的监控能力
【8月更文第29天】Grafana 是一个流行的开源平台,用于创建和共享统计数据的仪表板和可视化。除了内置的支持,Grafana 还有一个强大的插件生态系统,允许用户通过安装插件来扩展其功能。本文将介绍一些 Grafana 社区提供的插件,并探讨它们如何增强仪表盘的功能性。
242 1
|
3月前
|
存储 Prometheus 监控
Grafana 与 Prometheus 集成:打造高效监控系统
【8月更文第29天】在现代软件开发和运维领域,监控系统已成为不可或缺的一部分。Prometheus 和 Grafana 作为两个非常流行且互补的开源工具,可以协同工作来构建强大的实时监控解决方案。Prometheus 负责收集和存储时间序列数据,而 Grafana 则提供直观的数据可视化功能。本文将详细介绍如何集成这两个工具,构建一个高效、灵活的监控系统。
385 1
|
3月前
|
Prometheus 监控 Cloud Native
Grafana 入门指南:快速上手监控仪表盘
【8月更文第29天】Grafana 是一款开源的数据可视化和监控工具,它允许用户轻松地创建美观的仪表盘和图表,以便更好地理解和监控数据。无论您是需要监控系统性能指标、应用程序日志还是业务关键指标,Grafana 都能提供灵活而强大的解决方案。本指南将带领您快速上手 Grafana,包括安装、配置以及创建第一个监控面板。
539 1
|
3月前
|
Prometheus Kubernetes 监控
Kubernetes(K8S) 监控 Prometheus + Grafana
Kubernetes(K8S) 监控 Prometheus + Grafana
240 2
|
2月前
|
运维 Kubernetes 监控
Loki+Promtail+Grafana监控K8s日志
综上,Loki+Promtail+Grafana 监控组合对于在 K8s 环境中优化日志管理至关重要,它不仅提供了强大且易于扩展的日志收集与汇总工具,还有可视化这些日志的能力。通过有效地使用这套工具,可以显著地提高对应用的运维监控能力和故障诊断效率。
278 0
|
4月前
|
监控 数据可视化 关系型数据库
PolarDB产品使用问题之如何使用Grafana采集PolarDB的指标并进行可视化监控
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
5月前
|
Prometheus 监控 Cloud Native
【监控】Spring Boot+Prometheus+Grafana实现可视化监控
【监控】Spring Boot+Prometheus+Grafana实现可视化监控
157 6