Elasticsearch日志告警

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
可观测可视化 Grafana 版,10个用户账号 1个月
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 本文主要是介绍Elasticsearch日志告警的功能和使用,同时简单的介绍了下Elasticsearch日志监控功能,Elasticsearch日志告警使用的是Grafana 的告警能力,Grafana 的告警是仅仅当告警规则状态变化的时候,才会发出告警。Grafana 警报规则是依赖仪表板的,而仪表板依赖于Explore的Query查询结果数据。

前言

本文主要是介绍Elasticsearch日志告警的功能和使用,同时简单的介绍了下Elasticsearch日志监控功能,Elasticsearch日志告警使用的是Grafana 的告警能力,Grafana 的告警是仅仅当告警规则状态变化的时候,才会发出告警。Grafana 警报规则是依赖仪表板的,而仪表板依赖于Explore的Query查询结果数据。

功能模块

Search

可以通过名字搜索dashboards(仪表板)。

create

创建dashboards(仪表板),可以手动创建panel(面板),也可以导入dashboards(仪表板)的json文件。

Dashboards

主要功能是管理仪表板,可以选择具体某一个仪表板进行配置和编辑。

进入一个具体的dashboards,选择一个panel进行编辑,会有两个主要的配置项,分别是Query和Alert。

Query

Query就是Explore,支持的是Lucene Query。

Alert

Alert就是告警配置。

Rule

告警策略,Evaluate every为query的执行频率,for为告警持续时间,若for为0,命中规则后马上发出告警,否则持续设置的时间,超过设置的时间,将发送告警,如果警报规则已配置For并且查询满足了配置的阈值,则它将首先从OK到Pending。从OK到Pending状态,Grafana 不会发送任何通知。一旦警报规则触发超过For持续时间,它将更改为Alerting并发送警报通知。

另外,如果if no data or all values are null设置为No Data的情况,不要使用For,因为No Data是立即触发,不考虑FOR。如果设置了FOR,可能导致No Data -> Pending -> OK,不会发送OK状态的通知。

Conditions

告警条件


No Data & Error Handling

查询结果无数据或出错时的具体策略,可选值含义如下

No Data:将警报规则状态设置为NoData

Alerting:将警报规则状态设置为Alerting

Keep Last State:保持前一个警报规则状态

OK:将警报规则状态设置为OK

Notifications

通知配置

Send to:配置告警联系人

Message:发送消息的内容

tags:指定要包含在通知中的标签列表(键/值),只有某一些通知方式才支持,比如webhook。

Explore

查询分析和展示,支持的是Lucene Query语法。


Alerting

Alert rules

告警规则,Alert rules界面只能查看、修改、暂停告警,创建需要在仪表板面板的“警报”选项中添加和配置警报,要保留警报规则更改,请记住保存仪表板。

同时该界面可以查看告警规则的状态持续时间。

Nortification Channels

告警通知渠道,可创建告警通知渠道,类型选DingDing,Message Type选Link,目前支持DingDing和webhook。


参考文档

Grafana官网文档:https://grafana.com/docs/grafana/v7.5/

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
6月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
273 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
8月前
|
存储 运维 监控
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
中信银行信用卡中心每日新增日志数据 140 亿条(80TB),全量归档日志量超 40PB,早期基于 Elasticsearch 构建的日志云平台,面临存储成本高、实时写入性能差、文本检索慢以及日志分析能力不足等问题。因此使用 Apache Doris 替换 Elasticsearch,实现资源投入降低 50%、查询速度提升 2~4 倍,同时显著提高了运维效率。
326 3
金融场景 PB 级大规模日志平台:中信银行信用卡中心从 Elasticsearch 到 Apache Doris 的先进实践
|
7月前
|
存储 弹性计算 运维
海量日志接入 Elasticsearch Serverless 应用降本70%以上
本文将探讨在日志场景下,使用阿里云Elasticsearch Serverless相较于基于ECS自建Elasticsearch集群的成本与性能优势,展示如何通过Serverless架构实现高达 70%以上的成本节约。
393 0
|
10月前
|
存储 SQL 监控
|
10月前
|
自然语言处理 监控 数据可视化
|
10月前
|
运维 监控 安全
|
10月前
|
Oracle 关系型数据库 数据库
【赵渝强老师】Oracle的参数文件与告警日志文件
本文介绍了Oracle数据库的参数文件和告警日志文件。参数文件分为初始化参数文件(PFile)和服务器端参数文件(SPFile),在数据库启动时读取并分配资源。告警日志文件记录了数据库的重要活动、错误和警告信息,帮助诊断问题。文中还提供了相关视频讲解和示例代码。
216 1
|
10月前
|
存储 数据采集 监控
开源日志分析Elasticsearch
【10月更文挑战第22天】
149 5
|
10月前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
2768 31
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
9月前
|
监控 安全 Apache
什么是Apache日志?为什么Apache日志分析很重要?
Apache是全球广泛使用的Web服务器软件,支持超过30%的活跃网站。它通过接收和处理HTTP请求,与后端服务器通信,返回响应并记录日志,确保网页请求的快速准确处理。Apache日志分为访问日志和错误日志,对提升用户体验、保障安全及优化性能至关重要。EventLog Analyzer等工具可有效管理和分析这些日志,增强Web服务的安全性和可靠性。
237 9