如何基于运维事件中心通过logstash进行日志关键字监控

简介: 日常运维过程中,很多场景都会有诉求,需要对日志关键字进行监测,以便第一时间发现应用/业务相关异常,如jvm日志的gc关键字、业务日志的error关键字。本文将介绍使用logstash对异常日志进行采集及推送。

日常运维过程中,很多场景都需要对日志关键字进行监测,以便第一时间发现应用/业务相关异常,这是一种比较常见的监控需求,所以也有很多方法可以实现关键字告警。对于简单的告警可以通过一些传统的监控工具实现,但对于体量和业务是非常复杂的中大型企业来说,在海量日志的情况下会存在运维问题、配置分散复杂、性能要求高等问题。本文将介绍一种灵活、高效、方便的方案,协助运维人员实时保障业务稳定。通过logstash结合运维事件中心的标准集成,进行日志关键字监控。

日志构造

为了便于说明,本文将以不断打印如下test.log进行验证、演示。

2021-08-11T00:34:06+08:00 in shanghai,tradeplatform occur P1 ,112.11.123.11keywords error,message:Warning tradeplatform has some exception,content service exception;envirment type:online;group:aliyun;tags:xxxxx

日志推送至标准集成

1. 下载并安装logstash组件。

2. 修改logstash配置文件,对异常日志进行推送。logstash.conf配置文件参考如下:

input {
        beats {
                port => 5044
        }
        file {
                path => "/home/test.log"
  type => "test"
        }
}
filter {
    if [type]=="test" {
        grok {
                match => {
   "message" => "%{TIMESTAMP_ISO8601:timestamp} in %{DATA:region},%{DATA:application} occur %{DATA:level},%{IPV4:source}%{DATA:name},message:%{DATA:summary},content%{DATA:details};envirment type:%{DATA:class};group:%{DATA:group};tags:%{DATA:tag}"
                }
        }
 mutate {
                remove_field => ["host"]
                remove_field => ["@version"]
                remove_field => ["@timestamp"]
                remove_field => ["path"]  
                remove_field => ["message"]
        }
    }
}
output {
    if [type]=="test" {
        http {
                url => " 请替换为标准集成中的URL "
                http_method => "post"
                format => "json"
        }
    }
}

重要 !上述的URL为标准集成的对接URL,可至运维事件中心控制台集成中心>集成配置>标准集成里获取格式类似为:https://public-alert.aliyuncs.com/event/standard/8cd0b46766dd4e2488a5cd5663xxxxxx


3. 启动logstash,开始将异常日志推送至运维事件中心。

4. 为了便于标准集成中查看对应数据格式,本示例手动造一条日志,执行以下命令即可。

echo '2021-08-11T00:34:06+08:00 in shanghai,tradeplatform occur P1 ,112.11.123.11keywords error,message:Warning tradeplatform has some exception,content service exception;envirment type:online;group:aliyun;tags:xxxxx' >> test.log 

集成配置及流转

1. 在运维事件中心控制台集成中心>集成配置>标准集成查看最新推送的数据记录。

2. 在策略中心>流转规则里新增对应的规则,由于日志error是核心异常场景,此处示例优先级选择P1、个人通知勾选电话通知。

3. 为了便于演示,本示例手动造一条日志,以便生成对应事件,执行以下命令即可。

echo '2021-08-11T00:34:06+08:00 in shanghai,tradeplatform occur P1 ,112.11.123.11keywords error,message:Warning tradeplatform has some exception,content service exception;envirment type:online;group:aliyun;tags:xxxxx' >> test.log 

4. 在运维事件中心控制台的事件中心>事件,即可看到最新推送告警所生成的事件。同时分派对象会接收到对应的电话、短信、邮件通知。

其他

以上为如果通过logstash进行日志推送,并在运维事件中心中配置对应关键字,以便准确生成对应事件进行流转处理。实际场景中,也可通过其他技术手段实现推送,如将logstash替换为filebeat等常见开源日志组件、应用程序打印日志通过Shell脚本进行读取并推送等。


运维事件中心支持免费开通试用各功能,对产品有任何疑问可以加入官方钉钉用户群(群号:35645045,进群有官方技术支持和产品优惠活动同步。

开通链接:https://alert.console.aliyun.com/

产品详情页:https://www.aliyun.com/product/developerservices/gemp

相关文章
|
2月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全方位实践
本文深入探讨了构建高效运维体系的关键要素,从监控、日志管理、自动化工具、容器化与微服务架构、持续集成与持续部署(CI/CD)、虚拟化与云计算以及安全与合规等方面进行了全面阐述。通过引入先进的技术和方法,结合实际案例和项目经验,为读者提供了一套完整的运维解决方案,旨在帮助企业提升运维效率,降低运营成本,确保业务稳定运行。
|
1天前
|
消息中间件 数据采集 运维
一份运维监控的终极秘籍!监控不到位,宕机两行泪
【10月更文挑战第25天】监控指标的采集分为基础监控和业务监控。基础监控涉及CPU、内存、磁盘等硬件和网络信息,而业务监控则关注服务运行状态。常见的监控数据采集方法包括日志、JMX、REST、OpenMetrics等。Google SRE提出的四个黄金指标——错误、延迟、流量和饱和度,为监控提供了重要指导。错误监控关注系统和业务错误;延迟监控关注服务响应时间;流量监控关注系统和服务的访问量;饱和度监控关注服务利用率。这些指标有助于及时发现和定位故障。
13 1
|
12天前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。
|
17天前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
35 1
|
22天前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
26天前
|
存储 监控 固态存储
如何监控和优化 WAL 日志文件的存储空间使用?
如何监控和优化 WAL 日志文件的存储空间使用?
|
14天前
|
运维 监控 数据可视化
出海运维日志通到底重要不重要?
出海运维日志通到底重要不重要?
|
2月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
21天前
|
监控 网络协议 CDN
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
阿里云国际监控查询流量、用量查询流量与日志统计流量有差异?
|
2月前
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践指南
在当今数字化时代,企业对运维(Operations)的需求日益增长。运维不仅仅是保持系统运行那么简单,它涉及到监控、日志管理、故障排除、性能优化和自动化等多个层面。本文将从实际操作的角度出发,详细探讨如何构建一个高效的运维体系。通过具体案例,我们将了解不同运维工具和方法的应用,以及它们是如何帮助企业提高生产效率和降低运营风险的。无论你是刚接触运维的新手,还是经验丰富的专家,这篇文章都将为你提供宝贵的参考和启示。

相关产品

  • 运维事件中心