基于Scheduled SQL的log4j日志异常事件过滤与分析-阿里云开发者社区

基于Scheduled SQL的log4j日志异常事件过滤与分析

2021-09-26 561

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

对象存储 OSS，20GB 3个月

云备份 Cloud Backup，100GB 3个月

日志服务 SLS，月写入数据量 50GB 1个月

简介： 采用SLS提供的Scheduled SQL功能，对log4j ERROR日志进行处理并制作可视化报表

简介

日志可能是一种最简单的不能再简单的存储抽象，只能追加、按照时间完全有序（totally-ordered）的记录序列。作为项目开发必不可少的一部分，日志不仅可以帮助开发人员调试和优化系统，还可以是一种有价值的信息宝库，但是各系统混杂的日志如果不加以筛选和规范，就很难发挥其中的价值。

阿里云日志服务（SLS）是云原生观测分析平台，为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能，全面提升研发、运维、运营和安全等场景数字化能力。

Scheduled SQL 是一项由 SLS 全托管的用于定时分析数据、存储聚合数据、投影与过滤数据的功能，简单来说就是：定时调度 + 查询分析。解决场景需求包括：

定时分析数据：根据业务需求设置 SQL 语句或查询分析语句，定时执行数据分析，并将分析结果存储到目标库中。
全局聚合：对全量、细粒度的数据进行聚合存储，汇总为存储大小、精度适合的数据，相当于一定程度的有损压缩数据。

log4j简介

Log4j是Apache的一个开放源代码项目，通过使用Log4j，我们可以控制程序日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等；我们也可以控制每一条日志的输出格式；通过定义每一条日志信息的级别，我们能够更加细致地控制日志的生成过程。

最常用的是把日志信息输出到控制台和文件中，供开发人员进行调试和后续的系统分析。

常见的日志字段

时间(日志产生的时间)
日志级别(INFO、WARN、ERROR)
日志信息产生的地点(在代码中的何处)
日志信息

2021-10-12 08:47:15:733 [pool-4-thread-3] INFO test.log.LogMock.randomLog(LogMock.java:58) - send 1000 log to sls success
2021-10-12 08:47:15:485 [pool-4-thread-3] ERROR test.log.LogMock.randomLog(LogMock.java:64) - Error processing file web/2021/07/01/22/00_1625148042575442246_1435278095.snappy
com.aliyun.log.test.LogException: ErrorMessage: Write quota is exceeded. ErrorCode: 403
 at com.aliyun.log.ingest.core.producer.DefaultProducer.doSend(DefaultProducer.java:195) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.core.producer.DefaultProducer.send(DefaultProducer.java:100) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.core.AbstractSourceContext.collect(AbstractSourceContext.java:44) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.common.writer.RecordWriter.flush(RecordWriter.java:128) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.JSONReader.read(JSONReader.java:103) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.TextFileProcessor.parseAndEmitRecords(TextFileProcessor.java:101) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.TextFileProcessor.process(TextFileProcessor.java:63) [sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.OSSTask.start(OSSTask.java:57) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.executeTask(Worker.java:90) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.executeTasks(Worker.java:124) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.execute(Worker.java:135) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.start(Worker.java:156) [sls-connect.jar:?]
 at com.aliyun.log.ingest.cli.WorkerStarter.main(WorkerStarter.java:51) [sls-connect.jar:?]
 ... 12 more

log4j日志采集

上面就是两条常见的log4j格式的日志内容，可以看到包含了常见的日志信息，对于这种日志信息，日志服务提供了logtail采集的方式可以将日志文件中的日志信息导入到SLS的logstore之中，采集上来的日志内容如下图

业务背景

对于常见的Java系统，为了能准确地定位和追踪，日志信息往往会通过log4j非常详细的输出出来。这些日志在日积月累后的数量是惊人的。例如每天产生1000万条数据，则一年为36亿条数据。一方面，长时间的数据存储需要巨大的存储空间，而通过减少存储周期的方式减少存储空间，虽然降低了存储成本，但也丢失了有价值的数据。另一方面，大量的无用数据将造成在分析有价值数据上的性能压力。

下面列举了三种常见的数据处理方案

	方案	特点
方案一		完全自建，开发难度大，维护成本高
方案二		自己处理数据，自己保证exactly-once语义
方案三		全托管(完善的调度机制，自动处理各种异常，失败告警) 高效(单次最大处理百亿级数据) 多样化(搭配SQL的强大分析能力以及灵活的时间窗口，可以满足绝大多数业务场景)

下面就采用方案三来完成对 log4j ERROR级别日志的定时分析及结果存储，并搭配可视化报表。

实践

准备LogStore

准备好使用源logstore，并且配置好索引（参考配置索引），使用logtail采集将log4j日志导入源logstore

源索引配置

源日志

目标logstore索引配置

业务要求

将ERROR级别的日志中的ErrorMessage和ErrorCode拿出来，投递到目标logstore，制作异常可视化仪表盘

查询配置

SQL代码如下

* and level: ERROR | SELECT trim(regexp_extract(message,'ErrorMessage:([^E]+).*', 1)) as ErrorMessage , trim(regexp_extract(message, 'ErrorCode:(.*)', 1)) as ErrorCode limit 100000

点击 查询分析，出现预览结果之后确认无误后点击 创建Scheduled SQL 按钮，创建Scheduled SQL作业

计算配置

资源池有增强型（收费，但资源可扩展，适用于大量计算且有 SLA 要求的业务场景）、免费（Project 级别 15 并行度，后续开放）两种，按照你的需求来设置即可。预览时没有数据可以选择旁边的时间选择按钮，扩大查询时间。写入模式有三种，可以参考日志库、时序存储和创建Scheduled SQL作业，这里我们选择日志库导入日志库。

预览到数据之后，接下来需要我们配置目标logstore，如下图。选好目标project和logstore之后，需要我们配置读写目标的授权角色ARN，1 2处的角色ARN参考从Logstore到Logstore 中的 写目标授权，这里我已经提前配置好了默认角色，所以系统会自动填充好角色ARN。配置好后点击下一步，进行调度配置的设置。

调度配置

设置 SQL 每 5 分钟执行一次，每次执行处理最近 5 分钟窗口的数据。

注意：

1. 设置延迟执行参数，源 Logstore 的数据到来可能延迟，建议设置大一些的值做等待来保证计算数据的完整性。

2. SQL 运行超过指定次数或指定时间后，这一次的 SQL 实例会失败并继续下一个实例的调度。

作业查看、管理

依次点击1、2、3进入作业详情页面，可以在这个页面查看作业的详情，修改作业配置或者删除作业。

执行实例中展示了所选时间段的作业实例的基本信息，每个实例信息中有 SQL 查询区间，如果任务失败（权限、SQL 语法等原因）或 SQL 处理行数指标为 0（数据迟到或确实没有数据），可以对指定实例做重试运行（失败告警功能开发中）。

效果

可以看到，通过Scheduled SQL已经源logstore内部的ERROR日志筛选了出来，并分离出了ErrorCode和ErrorMessage

延伸

为了进行错误分析，还可以在目标logstore的查询的基础上制作可视化图表和告警

制作错误信息统计图表，简单清晰反映系统的运行状况

全局错误趋势统计

SQL

*|SELECT ErrorCode,COUNT(ErrorCode) AS count GROUP BY ErrorCode

写好SQL之后，点击查询分析查询处结果之后，点击下图位置处的饼图，出现饼图统计，然后点击添加到仪表盘

配置仪表盘信息后点击确定

然后依次点击下图1 2 3的位置进入新建的仪表盘

新建仪表盘信息如下图，点击箭头指示的位置可以修改查询时间范围，自动执行刚才的SQL，并将结果展示为饼图，点击右上角的编辑可以调整图表的大小和位置。

各类型错误趋势统计

SQL:

更多信息请参考

采集Logj日志

Scheduled SQL工作原理

SQL分析语法与功能

基于Scheduled SQL的log4j日志异常事件过滤与分析

简介

log4j简介

常见的日志字段

log4j日志采集

业务背景

实践

准备LogStore

源索引配置

源日志

目标logstore索引配置

业务要求

查询配置

计算配置

调度配置

作业查看、管理

效果

延伸

技术博文

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景