日志服务数据加工最佳实践: 解析syslog各种标准格式

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 本篇介绍日志服务数据加工最佳实践: 解析syslog各种标准格式的整体结构, 覆盖RFC524, RFC3164以及RSyslog的标准配置格式: TraditionalFormat, FileFormat, RSYSLOG_SyslogProtocol23Format, RSYSLOG_Debug.

概况

syslog是一种工业标准的协议,可用来记录设备的日志。在UNIX系统,路由器、交换机等网络设备中,系统日志(System Log)记录系统中任何时间发生的大小事件。管理者可以通过查看系统记录,随时掌握系统状况。UNIX的系统日志是通过syslogd这个进程记录系统有关事件记录,也可以记录应用程序运作事件。通过适当的配置,还可以实现运行syslog协议的机器间通信,通过分析这些网络行为日志,藉以追踪掌握与设备和网络有关的状况。

问题

在Unix类操作系统上,syslog广泛应用于系统日志。syslog日志消息既可以记录在本地文件中,也可以通过网络发送到接收syslog的服务器。接收syslog的服务器可以对多个设备的syslog消息进行统一的存储,或者解析其中的内容做相应的处理。常见的应用场景是网络管理工具、安全管理系统、日志审计系统。
但是,长期以来,没有一个标准来规范syslog的格式,导致syslog的格式是非常随意的。最坏的情况下,根本就没有任何格式,导致程序不能对syslog 消息进行解析,只能将它看作是一个字符串。对syslog日志解析一直是比较令人头疼的事情,本篇介绍如何使用LOG DSL中的grok高效快捷的去解析不同格式的syslog日志

解决方案

syslog协议标准

目前业界存在常见两种syslog日志协议,一个是2009年起草协议RFC524,另外一个是2001年的RFC3164协议。以下,为大家介绍这两种协议的不同之处,以便能够在以后实践中能够灵活应用grok解析syslog日志。

RFC5424协议

RFC5424协议包含以下字段信息,具体信息可以参考官方协议(https://tools.ietf.org/html/rfc5424

PRI VERSION SP TIMESTAMP SP HOSTNAME SP APP-NAME SP PROCID SP MSGID

以下通过几个示例来解释以上字段代表信息:

"""
Example1:
<34>1 2019-07-11T22:14:15.003Z aliyun.example.com ali - ID47 - BOM'su root' failed for lonvick on /dev/pts/8
"""
PRI -- 34
VERSION -- 1
TIMESTAMP -- 2019-07-11T22:14:15.003Z
HOSTNAME -- aliyun.example.com
APP-NAME -- ali
PROCID -- 无
MSGID -- ID47
MESSAGE -- 'su root' failed for lonvick on /dev/pts/8
"""
Example-2:
<165>1 2019-07-11T22:14:15.000003-07:00 192.0.2.1 myproc 8710 - - %% It's time to make the do-nuts.
"""
PRI -- 165
VERSION -- 1
TIMESTAMP -- 2019-07-11T05:14:15.000003-07:00
HOSTNAME -- 192.0.2.1
APP-NAME -- myproc
PROCID -- 8710
STRUCTURED-DATA -- “-”
MSGID -- “-”
MESSAGE -- "%% It's time to make the do-nuts."
"""
Example3: - with STRUCTURED-DATA
<165>1 2019-07-11T22:14:15.003Z aliyun.example.com
           evntslog - ID47 [exampleSDID@32473 iut="3" eventSource=
           "Application" eventID="1011"] BOMAn application
           event log entry...
"""
PRI -- 165
VERSION -- 1
TIMESTAMP -- 2019-07-11T22:14:15.003Z
HOSTNAME -- aliyun.example.com
APP-NAME -- evntslog
PROCID -- "-"
MSGID -- ID47
STRUCTURED-DATA -- [exampleSDID@32473 iut="3" eventSource="Application" eventID="1011"]
MESSAGE -- An application event log entry...

RFC3164协议

RFC3164协议包含以下字段信息,具体信息可以参考官方协议(https://tools.ietf.org/html/rfc3164

PRI HEADER[TIME HOSTNAME] MSG

以下通过几个示例来解释以上字段代表信息:

"""
<30>Oct 9 22:33:20 hlfedora auditd[1787]: The audit daemon is exiting.
"""
PRI -- 30
HEADER
- TIME -- Oct 9 22:33:20
- HOSTNAME -- hlfedora
MSG
- TAG -- auditd[1787]
- Content --The audit daemon is exiting.

grok解析syslog常见格式

以上内容介绍了syslog,接下来进入实践解析阶段。在syslog配置文件中为用户定制了几种常用格式的syslog,以下使用grok一一解析。此外,syslog采集到logstore上要使用文本格式采集。
具体的grok规则可参考grok模式参考:

TraditionalFormat格式

日志内容形式如下:

May  5 10:20:57 iZbp1a65x3r1vhpe94fi2qZ systemd: Started System Logging Service.

LOG DSL编排规则处理:

"""
处理前日志格式:
    receive_time: 1558663265
    __topic__:
    content: May  5 10:20:57 iZbp1a65x3r1vhpe94fi2qZ systemd: Started System Logging Service.
处理后日志格式:
    receive_time: 1558663265
    __topic__:
    content: May  5 10:20:57 iZbp1a65x3r1vhpe94fi2qZ systemd: Started System Logging Service.
    timestamp: May  5 10:20:57
    logsource: iZbp1a65x3r1vhpe94fi2qZ
    program: systemd
    message: Started System Logging Service.
"""
e_regex('content', grok('%{SYSLOGBASE} %{GREEDYDATA:message}'))

FileFormat格式

日志内容形式如下:

2019-05-06T09:26:07.874593+08:00 iZbp1a65x3r1vhpe94fi2qZ root: 834753

LOG DSL编排规则处理:

"""
处理前日志格式:
    receive_time: 1558663265
    __topic__:
    content: 2019-05-06T09:26:07.874593+08:00 iZbp1a65x3r1vhpe94fi2qZ root: 834753
处理后日志格式:
    receive_time: 1558663265
    __topic__:
    content: 2019-05-06T09:26:07.874593+08:00 iZbp1a65x3r1vhpe94fi2qZ root: 834753
    timestamp: 2019-05-06T09:26:07.874593+08:00
    hostname: iZbp1a65x3r1vhpe94fi2qZ
    program: root
    message: 834753
"""
e_regex('content',grok('%{TIMESTAMP_ISO8601:timestamp} %{SYSLOGHOST:hostname} %{SYSLOGPROG} %{GREEDYDATA:message}'))

RSYSLOG_SyslogProtocol23Format格式

日志内容形式如下:

<13>1 2019-05-06T11:50:16.015554+08:00 iZbp1a65x3r1vhpe94fi2qZ root - - - twish

LOG DSL编排规则处理:

"""
处理前日志格式:
    receive_time: 1558663265
    __topic__:
    content: <13>1 2019-05-06T11:50:16.015554+08:00 iZbp1a65x3r1vhpe94fi2qZ root - - - twish
处理后日志格式:
    receive_time: 1558663265
    __topic__:
    content: <13>1 2019-05-06T11:50:16.015554+08:00 iZbp1a65x3r1vhpe94fi2qZ root - - - twish
    priority: 13
    version: 1
    timestamp: 2019-05-06T11:50:16.015554+08:00
    hostname: iZbp1a65x3r1vhpe94fi2qZ
    program: root
    message: twish
"""
e_regex('content',grok('%{POSINT:priority}>%{NUMBER:version} %{TIMESTAMP_ISO8601:timestamp} %{SYSLOGHOST:hostname} %{PROG:program} - - - %{GREEDYDATA:message}'))

RSYSLOG_DebugFormat格式

日志内容形式如下:

2019-05-06T14:29:37.558854+08:00 iZbp1a65x3r1vhpe94fi2qZ root: environment

LOG DSL编排规则处理:

"""
处理前日志格式:
    receive_time: 1558663265
    __topic__:
    content: 2019-05-06T14:29:37.558854+08:00 iZbp1a65x3r1vhpe94fi2qZ root: environment
处理后日志格式:
    receive_time: 1558663265
    __topic__:
    content: 2019-05-06T14:29:37.558854+08:00 iZbp1a65x3r1vhpe94fi2qZ root: environment
    timestamp: 2019-05-06T14:29:37.558854+08:00 
    hostname: iZbp1a65x3r1vhpe94fi2qZ
    program: root
    message: environment
"""
e_regex('content',grok('%{TIMESTAMP_ISO8601:timestamp} %{SYSLOGHOST:hostname} %{SYSLOGPROG} %{GREEDYDATA:message}'))

自此,syslog配置文件常见log日志文件格式解析已解析完成,接下来介绍两种FluentSyslog日志格式。

FluentRFC5424格式

日志内容形式如下:

<16>1 2013-02-28T12:00:00.003Z 192.168.0.1 fluentd 11111 ID24224 [exampleSDID@20224 iut='3' eventSource='Application' eventID='11211] Hi, from Fluentd!

LOG DSL编排规则处理:

"""
处理前日志格式:
    receive_time: 1558663265
    __topic__:
    content: <16>1 2019-02-28T12:00:00.003Z 192.168.0.1 aliyun 11111 ID24224 [exampleSDID@20224 iut='3' eventSource='Application' eventID='11211] Hi, from Fluentd!
处理后日志格式:
    receive_time: 1558663265
    __topic__:
    content: <16>1 2019-02-28T12:00:00.003Z 192.168.0.1 aliyun 11111 ID24224 [exampleSDID@20224 iut='3' eventSource='Application' eventID='11211] Hi, from aliyun!
    priority: 16
    version: 1
    timestamp: 2019-02-28T12:00:00.003Z
    hostname: 192.168.0.1
    ident: aliyun
    pid: 1111
    msgid: ID24224
    extradata: [exampleSDID@20224 iut='3' eventSource='Application' eventID='11211]
    message: Hi, from aliyun!
"""
e_regex('content',grok('%{POSINT:priority}>%{NUMBER:version} %{TIMESTAMP_ISO8601:timestamp} %{SYSLOGHOST:hostname} %{WORD:ident} %{NUMBER:pid} %{USERNAME:msgid} (?P<extradata>(\[(.*)\]|[^ ])) %{GREEDYDATA:message}'))

FluentRFC3164格式

日志内容形式如下:

<6>Feb 28 12:00:00 192.168.0.1 fluentd[11111]: [error] Syslog test

LOG DSL编排规则处理:

"""
处理前日志格式:
    receive_time: 1558663265
    __topic__:
    content: <6>Feb 28 12:00:00 192.168.0.1 aliyun[11111]: [error] Syslog test
处理后日志格式:
    receive_time: 1558663265
    __topic__:
    content: <6>Feb 28 12:00:00 192.168.0.1 aliyun[11111]: [error] Syslog test
    priority: 6
    timestamp: Feb 28 12:00:00
    hostname: 192.168.0.1
    ident: aliyun
    pid: [1111]
    level: [error]
    message: Syslog test
"""
e_regex('content', grok('%{POSINT:priority}>%{SYSLOGTIMESTAMP:timestamp} %{SYSLOGHOST:hostname} %{WORD:ident}(?P<pid>(\[(\d+)\]|[^:])): (?P<level>(\[(\w+)\]|[^ ])) %{GREEDYDATA:message}'))

对priority做进一步解析

针对,以上解析过后的日志内容还可以对priority进一步解析,并且匹配出解析出来的facility和serverity信息,使用RFC5424协议更多参考e_syslogrfc函数,如下:

"""
处理前日志格式:
    receive_time: 1558663265
    __topic__:
    content: <13>1 2019-05-06T11:50:16.015554+08:00 iZbp1a65x3r1vhpe94fi2qZ root - - - twish
    priority: 13
    version: 1
    timestamp: 2019-05-06T11:50:16.015554+08:00
    hostname: iZbp1a65x3r1vhpe94fi2qZ
    program: root
    message: twish
处理后日志格式:
    receive_time: 1558663265
    __topic__:
    content: <13>1 2019-05-06T11:50:16.015554+08:00 iZbp1a65x3r1vhpe94fi2qZ root - - - twish
    priority: 13
    version: 1
    timestamp: 2019-05-06T11:50:16.015554+08:00
    hostname: iZbp1a65x3r1vhpe94fi2qZ
    program: root
    message: twish
    _facility_: 1
    _severity_: 5
    _severitylabel_: Notice: normal but significant condition
    _facilitylabel_: user-level messages
"""
e_syslogrfc("priority","SYSLOGRFC5424")

总结

通过以上内容,覆盖了syslog各种常见日志解析。syslog格式还有很多种,解析方法还是推荐使用LOG DSL的grok解析效率更快更高。grok还可以解析其他类型的log内容,比如Apache、Http错误日志等等。
如果解析出来之后的message或者body. 还需要进一步解析的,有各种方式:grok, 正则或者CSV等等

进一步参考

欢迎扫码加入官方钉钉群获得实时更新与阿里云工程师的及时直接的支持:
image

相关实践学习
通过日志服务实现云资源OSS的安全审计
本实验介绍如何通过日志服务实现云资源OSS的安全审计。
目录
相关文章
|
12月前
|
存储 Java 文件存储
微服务——SpringBoot使用归纳——Spring Boot使用slf4j进行日志记录—— logback.xml 配置文件解析
本文解析了 `logback.xml` 配置文件的详细内容,包括日志输出格式、存储路径、控制台输出及日志级别等关键配置。通过定义 `LOG_PATTERN` 和 `FILE_PATH`,设置日志格式与存储路径;利用 `&lt;appender&gt;` 节点配置控制台和文件输出,支持日志滚动策略(如文件大小限制和保存时长);最后通过 `&lt;logger&gt;` 和 `&lt;root&gt;` 定义日志级别与输出方式。此配置适用于精细化管理日志输出,满足不同场景需求。
2827 1
|
6月前
|
Ubuntu
在Ubuntu系统上设置syslog日志轮替与大小限制
请注意,在修改任何系统级别配置之前,请务必备份相应得原始档案并理解每项变更可能带来得影响。
724 2
|
9月前
|
运维 监控 安全
Syslog 日志分析与异常检测技巧
系统日志蕴含设备运行关键信息,但分析提取颇具挑战。本文详解从命令行工具(如 Grep、Tail、Awk)到专业软件(如 EventLog Analyzer)的全流程日志分析技巧,助你高效挖掘 Syslog 价值,提升运维与安全响应能力。
523 4
|
12月前
|
监控 Java 应用服务中间件
Tomcat log日志解析
理解和解析Tomcat日志文件对于诊断和解决Web应用中的问题至关重要。通过分析 `catalina.out`、`localhost.log`、`localhost_access_log.*.txt`、`manager.log`和 `host-manager.log`等日志文件,可以快速定位和解决问题,确保Tomcat服务器的稳定运行。掌握这些日志解析技巧,可以显著提高运维和开发效率。
1328 13
|
12月前
|
监控 Shell Linux
Android调试终极指南:ADB安装+多设备连接+ANR日志抓取全流程解析,覆盖环境变量配置/多设备调试/ANR日志分析全流程,附Win/Mac/Linux三平台解决方案
ADB(Android Debug Bridge)是安卓开发中的重要工具,用于连接电脑与安卓设备,实现文件传输、应用管理、日志抓取等功能。本文介绍了 ADB 的基本概念、安装配置及常用命令。包括:1) 基本命令如 `adb version` 和 `adb devices`;2) 权限操作如 `adb root` 和 `adb shell`;3) APK 操作如安装、卸载应用;4) 文件传输如 `adb push` 和 `adb pull`;5) 日志记录如 `adb logcat`;6) 系统信息获取如屏幕截图和录屏。通过这些功能,用户可高效调试和管理安卓设备。
|
12月前
|
存储 设计模式 Java
重学Java基础篇—ThreadLocal深度解析与最佳实践
ThreadLocal 是一种实现线程隔离的机制,为每个线程创建独立变量副本,适用于数据库连接管理、用户会话信息存储等场景。
428 5
|
存储 人工智能 NoSQL
Tablestore深度解析:面向AI场景的结构化数据存储最佳实践
《Tablestore深度解析:面向AI场景的结构化数据存储最佳实践》由阿里云专家团队分享,涵盖Tablestore十年发展历程、AI时代多模态数据存储需求、VCU模式优化、向量检索发布及客户最佳实践等内容。Tablestore支持大规模在线数据存储,提供高性价比、高性能和高可用性,特别针对AI场景进行优化,满足结构化与非结构化数据的统一存储和高效检索需求。通过多元化索引和Serverless弹性VCU模式,助力企业实现低成本、灵活扩展的数据管理方案。
760 12
|
存储 监控 安全
5款 Syslog集中系统日志常用工具对比推荐
集中管理Syslog有助于持续监控网络中的恶意活动,确保日志的搜索和分析更为便捷。常用工具包括Rsyslog、Syslog-ng、Logstash和Fluentd,它们各有优劣。Rsyslog通过多种协议确保日志传输的安全性;Syslog-ng支持高效收集和转发日志;Logstash能解析多源日志并索引;Fluentd将日志转换为JSON格式。卓豪EventLog Analyzer则提供一体化的日志管理,支持日志分析、报表生成、用户行为分析及实时告警,是全面的日志管理解决方案。
337 0
|
Java 数据库连接 开发者
Java中的异常处理机制:深入解析与最佳实践####
本文旨在为Java开发者提供一份关于异常处理机制的全面指南,从基础概念到高级技巧,涵盖try-catch结构、自定义异常、异常链分析以及最佳实践策略。不同于传统的摘要概述,本文将以一个实际项目案例为线索,逐步揭示如何高效地管理运行时错误,提升代码的健壮性和可维护性。通过对比常见误区与优化方案,读者将获得编写更加健壮Java应用程序的实用知识。 --- ####
|
监控 数据管理 测试技术
API接口自动化测试深度解析与最佳实践指南
本文详细介绍了API接口自动化测试的重要性、核心概念及实施步骤,强调了从明确测试目标、选择合适工具、编写高质量测试用例到构建稳定测试环境、执行自动化测试、分析测试结果、回归测试及集成CI/CD流程的全过程,旨在为开发者提供一套全面的技术指南,确保API的高质量与稳定性。

相关产品

  • 日志服务
  • 推荐镜像

    更多
  • DNS