基于Scheduled SQL的log4j日志异常事件过滤与分析-阿里云开发者社区

开发者社区> 阿里云存储服务> 正文
登录阅读全文

基于Scheduled SQL的log4j日志异常事件过滤与分析

简介: 采用SLS提供的Scheduled SQL功能,对log4j ERROR日志进行处理并制作可视化报表

简介


日志可能是一种最简单的不能再简单的存储抽象,只能追加、按照时间完全有序(totally-ordered)的记录序列。作为项目开发必不可少的一部分,日志不仅可以帮助开发人员调试和优化系统,还可以是一种有价值的信息宝库,但是各系统混杂的日志如果不加以筛选和规范,就很难发挥其中的价值。

阿里云日志服务(SLS)是云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。一站式提供数据采集、加工、分析、告警可视化与投递功能,全面提升研发、运维、运营和安全等场景数字化能力。

Scheduled SQL 是一项由 SLS 全托管的用于定时分析数据、存储聚合数据、投影与过滤数据的功能,简单来说就是:定时调度 + 查询分析解决场景需求包括:

  • 定时分析数据:根据业务需求设置 SQL 语句或查询分析语句,定时执行数据分析,并将分析结果存储到目标库中。
  • 全局聚合:对全量、细粒度的数据进行聚合存储,汇总为存储大小、精度适合的数据,相当于一定程度的有损压缩数据。

image

log4j简介


Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制程序日志信息输送的目的地是控制台、文件、GUI组件、甚至是套接 口服务 器、NT的事件记录器、UNIX Syslog守护进程等;我们也可以控制每一条日志的输出格式;通过定义每一条日志信息的级别,我们能够更加细致地控制日志的生成过程。

最常用的是把日志信息输出到控制台和文件中,供开发人员进行调试和后续的系统分析。


常见的日志字段

  • 时间(日志产生的时间)
  • 日志级别(INFO、WARN、ERROR)
  • 日志信息产生的地点(在代码中的何处)
  • 日志信息
2021-10-12 08:47:15:733 [pool-4-thread-3] INFO test.log.LogMock.randomLog(LogMock.java:58) - send 1000 log to sls success
2021-10-12 08:47:15:485 [pool-4-thread-3] ERROR test.log.LogMock.randomLog(LogMock.java:64) - Error processing file web/2021/07/01/22/00_1625148042575442246_1435278095.snappy
com.aliyun.log.test.LogException: ErrorMessage: Write quota is exceeded. ErrorCode: 403
 at com.aliyun.log.ingest.core.producer.DefaultProducer.doSend(DefaultProducer.java:195) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.core.producer.DefaultProducer.send(DefaultProducer.java:100) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.core.AbstractSourceContext.collect(AbstractSourceContext.java:44) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.common.writer.RecordWriter.flush(RecordWriter.java:128) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.JSONReader.read(JSONReader.java:103) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.TextFileProcessor.parseAndEmitRecords(TextFileProcessor.java:101) ~[sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.processor.TextFileProcessor.process(TextFileProcessor.java:63) [sls-connect.jar:?]
 at com.aliyun.log.ingest.oss.OSSTask.start(OSSTask.java:57) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.executeTask(Worker.java:90) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.executeTasks(Worker.java:124) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.execute(Worker.java:135) [sls-connect.jar:?]
 at com.aliyun.log.ingest.core.Worker.start(Worker.java:156) [sls-connect.jar:?]
 at com.aliyun.log.ingest.cli.WorkerStarter.main(WorkerStarter.java:51) [sls-connect.jar:?]
 ... 12 more

log4j日志采集

上面就是两条常见的log4j格式的日志内容,可以看到包含了常见的日志信息,对于这种日志信息,日志服务提供了logtail采集的方式可以将日志文件中的日志信息导入到SLS的logstore之中,采集上来的日志内容如下图

image

业务背景

对于常见的Java系统,为了能准确地定位和追踪,日志信息往往会通过log4j非常详细的输出出来。这些日志在日积月累后的数量是惊人的。例如每天产生1000万条数据,则一年为36亿条数据。一方面,长时间的数据存储需要巨大的存储空间,而通过减少存储周期的方式减少存储空间,虽然降低了存储成本,但也丢失了有价值的数据。另一方面,大量的无用数据将造成在分析有价值数据上的性能压力。

下面列举了三种常见的数据处理方案

方案

特点

方案一

image

完全自建,开发难度大,维护成本高

方案二

image

自己处理数据,自己保证exactly-once语义

方案三

image

  • 全托管(完善的调度机制,自动处理各种异常,失败告警)
  • 高效(单次最大处理百亿级数据)
  • 多样化(搭配SQL的强大分析能力以及灵活的时间窗口,可以满足绝大多数业务场景)

下面就采用方案三来完成对 log4j ERROR级别日志的定时分析及结果存储,并搭配可视化报表。

实践

准备LogStore

准备好使用源logstore,并且配置好索引(参考配置索引),使用logtail采集将log4j日志导入源logstore

源索引配置

image

源日志

image

目标logstore索引配置

image

业务要求

将ERROR级别的日志中的ErrorMessage和ErrorCode拿出来,投递到目标logstore,制作异常可视化仪表盘

查询配置

SQL代码如下

* and level: ERROR | SELECT trim(regexp_extract(message,'ErrorMessage:([^E]+).*', 1)) as ErrorMessage , trim(regexp_extract(message, 'ErrorCode:(.*)', 1)) as ErrorCode limit 100000

点击 查询分析,出现预览结果之后确认无误后点击 创建Scheduled SQL 按钮,创建Scheduled SQL作业

image

计算配置


资源池有增强型(收费,但资源可扩展,适用于大量计算且有 SLA 要求的业务场景)、免费(Project 级别 15 并行度,后续开放)两种,按照你的需求来设置即可。预览时没有数据可以选择旁边的时间选择按钮,扩大查询时间。写入模式有三种,可以参考 日志库时序存储创建Scheduled SQL作业,这里我们选择日志库导入日志库。

image

预览到数据之后,接下来需要我们配置目标logstore,如下图。选好目标project和logstore之后,需要我们配置读写目标的授权 角色ARN,1 2处的角色ARN参考 从Logstore到Logstore 中的 写目标授权,这里我已经提前配置好了默认角色,所以系统会自动填充好角色ARN。配置好后点击下一步,进行调度配置的设置。

image

调度配置


设置 SQL 每 5 分钟执行一次,每次执行处理最近 5 分钟窗口的数据。


注意:

1. 设置延迟执行参数,源 Logstore 的数据到来可能延迟,建议设置大一些的值做等待来保证计算数据的完整性。

2. SQL 运行超过指定次数或指定时间后,这一次的 SQL 实例会失败并继续下一个实例的调度。

image

作业查看、管理

依次点击1、2、3进入作业详情页面,可以在这个页面查看作业的详情,修改作业配置或者删除作业。

执行实例中展示了所选时间段的作业实例的基本信息,每个实例信息中有 SQL 查询区间,如果任务失败(权限、SQL 语法等原因)或 SQL 处理行数指标为 0(数据迟到或确实没有数据),可以对指定实例做重试运行(失败告警功能开发中)。

image

效果

可以看到,通过Scheduled SQL已经源logstore内部的ERROR日志筛选了出来,并分离出了ErrorCode和ErrorMessage

image

延伸

为了进行错误分析,还可以在目标logstore的查询的基础上制作可视化图表告警

制作错误信息统计图表,简单清晰反映系统的运行状况

  • 全局错误趋势统计

SQL

*|SELECT ErrorCode,COUNT(ErrorCode) AS count GROUP BY ErrorCode

写好SQL之后,点击 查询分析 查询处结果之后,点击下图位置处的饼图,出现饼图统计,然后点击添加到仪表盘

image

配置仪表盘信息后点击确定

image

然后依次点击下图1 2 3的位置进入新建的仪表盘

image

新建仪表盘信息如下图,点击箭头指示的位置可以修改查询时间范围,自动执行刚才的SQL,并将结果展示为饼图,点击右上角的编辑可以调整图表的大小和位置。

image

  • 各类型错误趋势统计

SQL:

*|select from_unixtime(__time__ - __time__ % 300) as dt, errorCode, count(1) as cnt group by dt, errorCode order by dt asc limit 100000

image

image

image

  • 更多信息请参考

采集Logj日志

Scheduled SQL工作原理

SQL分析语法与功能

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。

官方博客
最新文章
相关文章
存储产品
客户案例