基于Scheduled SQL的log4j日志异常事件过滤与分析

本文涉及的产品
对象存储 OSS,20GB 3个月
文件存储 NAS,50GB 3个月
对象存储 OSS,内容安全 1000次 1年
简介: 采用SLS提供的Scheduled SQL功能,对log4j ERROR日志进行处理并制作可视化报表

简介


日志可能是一种最简单的不能再简单的存储抽象,只能追加、按照时间完全有序(totally-ordered)的记录序列。作为项目开发必不可少的一部分,日志不仅可以帮助开发人员调试和优化系统,还可以是一种有价值的信息宝库,但是各系统混杂的日志如果不加以筛选和规范,就很难发挥其中的价值。

阿里云日志服务(SLS)是云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能,全面提升研发、运维、运营和安全等场景数字化能力。

Scheduled SQL 是一项由 SLS 全托管的用于定时分析数据、存储聚合数据、投影与过滤数据的功能,简单来说就是:定时调度 + 查询分析解决场景需求包括:

  • 定时分析数据:根据业务需求设置 SQL 语句或查询分析语句,定时执行数据分析,并将分析结果存储到目标库中。
  • 全局聚合:对全量、细粒度的数据进行聚合存储,汇总为存储大小、精度适合的数据,相当于一定程度的有损压缩数据。

image

log4j简介


Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制程序日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接 口服务 器、NT的事件记录器、UNIX Syslog守护进程等;我们也可以控制每一条日志的输出格式;通过定义每一条日志信息的级别,我们能够更加细致地控制日志的生成过程。

最常用的是把日志信息输出到控制台和文件中,供开发人员进行调试和后续的系统分析。


常见的日志字段

  • 时间(日志产生的时间)
  • 日志级别(INFO、WARN、ERROR)
  • 日志信息产生的地点(在代码中的何处)
  • 日志信息
2021-10-12 08:47:15:733 [pool-4-thread-3] INFO test.log.LogMock.randomLog(LogMock.java:58) - send 1000 log to sls success
2021-10-12 08:47:15:485 [pool-4-thread-3] ERROR test.log.LogMock.randomLog(LogMock.java:64) - Error processing file web/2021/07/01/22/00_1625148042575442246_1435278095.snappy
com.aliyun.log.test.LogException: ErrorMessage: Write quota is exceeded. ErrorCode: 403
 at com.aliyun.log.ingest.core.producer.DefaultProducer.doSend(DefaultProducer.java:195) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.core.producer.DefaultProducer.send(DefaultProducer.java:100) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.core.AbstractSourceContext.collect(AbstractSourceContext.java:44) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.common.writer.RecordWriter.flush(RecordWriter.java:128) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.JSONReader.read(JSONReader.java:103) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.TextFileProcessor.parseAndEmitRecords(TextFileProcessor.java:101) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.TextFileProcessor.process(TextFileProcessor.java:63) [sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.OSSTask.start(OSSTask.java:57) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.executeTask(Worker.java:90) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.executeTasks(Worker.java:124) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.execute(Worker.java:135) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.start(Worker.java:156) [sls-connect.jar:?]
 at com.aliyun.log.ingest.cli.WorkerStarter.main(WorkerStarter.java:51) [sls-connect.jar:?]
 ... 12 more

log4j日志采集

上面就是两条常见的log4j格式的日志内容,可以看到包含了常见的日志信息,对于这种日志信息,日志服务提供了logtail采集的方式可以将日志文件中的日志信息导入到SLS的logstore之中,采集上来的日志内容如下图

image

业务背景

对于常见的Java系统,为了能准确地定位和追踪,日志信息往往会通过log4j非常详细的输出出来。这些日志在日积月累后的数量是惊人的。例如每天产生1000万条数据,则一年为36亿条数据。一方面,长时间的数据存储需要巨大的存储空间,而通过减少存储周期的方式减少存储空间,虽然降低了存储成本,但也丢失了有价值的数据。另一方面,大量的无用数据将造成在分析有价值数据上的性能压力。

下面列举了三种常见的数据处理方案

方案

特点

方案一

image

完全自建,开发难度大,维护成本高

方案二

image

自己处理数据,自己保证exactly-once语义

方案三

image

  • 全托管(完善的调度机制,自动处理各种异常,失败告警)
  • 高效(单次最大处理百亿级数据)
  • 多样化(搭配SQL的强大分析能力以及灵活的时间窗口,可以满足绝大多数业务场景)

下面就采用方案三来完成对 log4j ERROR级别日志的定时分析及结果存储,并搭配可视化报表。

实践

准备LogStore

准备好使用源logstore,并且配置好索引(参考配置索引),使用logtail采集将log4j日志导入源logstore

源索引配置

image

源日志

image

目标logstore索引配置

image

业务要求

将ERROR级别的日志中的ErrorMessage和ErrorCode拿出来,投递到目标logstore,制作异常可视化仪表盘

查询配置

SQL代码如下

* and level: ERROR | SELECT trim(regexp_extract(message,'ErrorMessage:([^E]+).*', 1)) as ErrorMessage , trim(regexp_extract(message, 'ErrorCode:(.*)', 1)) as ErrorCode limit 100000

点击 查询分析,出现预览结果之后确认无误后点击 创建Scheduled SQL 按钮,创建Scheduled SQL作业

image

计算配置


资源池有增强型(收费,但资源可扩展,适用于大量计算且有 SLA 要求的业务场景)、免费(Project 级别 15 并行度,后续开放)两种,按照你的需求来设置即可。预览时没有数据可以选择旁边的时间选择按钮,扩大查询时间。写入模式有三种,可以参考 日志库时序存储创建Scheduled SQL作业,这里我们选择日志库导入日志库。

image

预览到数据之后,接下来需要我们配置目标logstore,如下图。选好目标project和logstore之后,需要我们配置读写目标的授权 角色ARN,1 2处的角色ARN参考 从Logstore到Logstore 中的 写目标授权,这里我已经提前配置好了默认角色,所以系统会自动填充好角色ARN。配置好后点击下一步,进行调度配置的设置。

image

调度配置


设置 SQL 每 5 分钟执行一次,每次执行处理最近 5 分钟窗口的数据。


注意:

1. 设置延迟执行参数,源 Logstore 的数据到来可能延迟,建议设置大一些的值做等待来保证计算数据的完整性。

2. SQL 运行超过指定次数或指定时间后,这一次的 SQL 实例会失败并继续下一个实例的调度。

image

作业查看、管理

依次点击1、2、3进入作业详情页面,可以在这个页面查看作业的详情,修改作业配置或者删除作业。

执行实例中展示了所选时间段的作业实例的基本信息,每个实例信息中有 SQL 查询区间,如果任务失败(权限、SQL 语法等原因)或 SQL 处理行数指标为 0(数据迟到或确实没有数据),可以对指定实例做重试运行(失败告警功能开发中)。

image

效果

可以看到,通过Scheduled SQL已经源logstore内部的ERROR日志筛选了出来,并分离出了ErrorCode和ErrorMessage

image

延伸

为了进行错误分析,还可以在目标logstore的查询的基础上制作可视化图表告警

制作错误信息统计图表,简单清晰反映系统的运行状况

  • 全局错误趋势统计

SQL

*|SELECT ErrorCode,COUNT(ErrorCode) AS count GROUP BY ErrorCode

写好SQL之后,点击 查询分析 查询处结果之后,点击下图位置处的饼图,出现饼图统计,然后点击添加到仪表盘

image

配置仪表盘信息后点击确定

image

然后依次点击下图1 2 3的位置进入新建的仪表盘

image

新建仪表盘信息如下图,点击箭头指示的位置可以修改查询时间范围,自动执行刚才的SQL,并将结果展示为饼图,点击右上角的编辑可以调整图表的大小和位置。

image

  • 各类型错误趋势统计

SQL:

*|select from_unixtime(__time__ - __time__ % 300) as dt, errorCode, count(1) as cnt group by dt, errorCode order by dt asc limit 100000

image

image

image

  • 更多信息请参考

采集Logj日志

Scheduled SQL工作原理

SQL分析语法与功能

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
12天前
|
XML 安全 Java
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
本文介绍了Java日志框架的基本概念和使用方法,重点讨论了SLF4J、Log4j、Logback和Log4j2之间的关系及其性能对比。SLF4J作为一个日志抽象层,允许开发者使用统一的日志接口,而Log4j、Logback和Log4j2则是具体的日志实现框架。Log4j2在性能上优于Logback,推荐在新项目中使用。文章还详细说明了如何在Spring Boot项目中配置Log4j2和Logback,以及如何使用Lombok简化日志记录。最后,提供了一些日志配置的最佳实践,包括滚动日志、统一日志格式和提高日志性能的方法。
121 30
【日志框架整合】Slf4j、Log4j、Log4j2、Logback配置模板
|
1月前
|
XML JSON Java
Logback 与 log4j2 性能对比:谁才是日志框架的性能王者?
【10月更文挑战第5天】在Java开发中,日志框架是不可或缺的工具,它们帮助我们记录系统运行时的信息、警告和错误,对于开发人员来说至关重要。在众多日志框架中,Logback和log4j2以其卓越的性能和丰富的功能脱颖而出,成为开发者们的首选。本文将深入探讨Logback与log4j2在性能方面的对比,通过详细的分析和实例,帮助大家理解两者之间的性能差异,以便在实际项目中做出更明智的选择。
220 3
|
11天前
|
存储 SQL 监控
|
11天前
|
运维 监控 安全
|
14天前
|
监控 关系型数据库 MySQL
分析慢查询日志
【10月更文挑战第29天】分析慢查询日志
35 3
|
14天前
|
监控 关系型数据库 数据库
怎样分析慢查询日志?
【10月更文挑战第29天】怎样分析慢查询日志?
32 2
|
1月前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1630 14
|
1月前
|
SQL 数据库
为什么 SQL 日志文件很大,我应该如何处理?
为什么 SQL 日志文件很大,我应该如何处理?
|
SQL 数据采集 监控
基于日志服务数据加工分析Java异常日志
采集并脱敏了整个5月份的项目异常日志,准备使用日志服务数据加工做数据清洗以及分析。本案例是基于使用阿里云相关产品(OSS,RDS,SLS等)的SDK展开自身业务。需要对异常日志做解析,将原始日志中时间、错误码、错误信息、状态码、产品信息、请求方法、出错行号提取出来。然后根据提取出来的不同产品信息做多目标分发处理。对清洗后的数据做异常日志数据分析。
807 0
基于日志服务数据加工分析Java异常日志
|
1月前
|
Python
log日志学习
【10月更文挑战第9天】 python处理log打印模块log的使用和介绍
31 0

相关产品

  • 日志服务