使用CloudLens排查iLogtail文件重复配置问题

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:重复采集配置问题。

本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:重复采集配置问题。

目标读者

数字化系统开发运维(DevOps)工程师、稳定性工程师(SRE)、可观测平台运维人员等。

背景介绍

iLogtail 是阿里云日志服务(SLS)团队自研的可观测数据采集 Agent,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,可以部署于物理机、虚拟机、Kubernetes 等多种环境中来采集遥测数据。目前 iLogtail 广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景,在实战中验证了其强大的性能和稳定性。

CloudLens for SLS是日志服务推出的一款应用,帮助用户监控和管理日志服务Project、Logstore等资产,提升用户对日志服务资产的管理效率、快速了解其消耗情况。

使用场景

文件日志采集是日志采集Agent最常见的数据采集场景,iLogtail目前支持主机上文件采集以及容器场景下的文件采集。但是文件采集在实战中会遇到各种各样的问题,基于此场景,CloudLens for SLS集成了针对iLogtail的状态监控,可以实时的反馈当前iLogtail Agent的运行状况。

问题描述

iLogtail文件采集,默认情况下,同一个日志文件,只允许被一个采集配置采集,如果有两个或者两个以上的采集配置采集了同一个日志文件,那么就会报这个错误。如此设计,主要有两个原因:

  • 重复的采集会导致存储成本翻倍。

  • 用户配置采集文件的时候,通常是采用通配符的方式,在不同的采集配置中,容易导致采集文件容复。日志文件的监控和采集都是需要占用一定资源的,如果不加以限制,会导致资源占用非常大。

问题影响范围

针对同一个日志文件,只会有一个采集配置生效,其他采集配置会跳过该文件(其他文件不受影响)。

错误发现

CloudLens for SLS页面,点击报表中心下采集监控,然后查看iLogtail异常监控:

image.png

可以看到针对日志文件重复配置问题(MULTI_CONFIG_MATCH_ALARM)有一个专门的报表,里面详细展示了问题发生的时间、IP、产生重复的日志文件路径以及两个重复配置所在的project、logstore和采集配置的名字。由此客户可以清晰的看到自己的哪台机、哪个日志文件、在哪两个采集配置中重复了。仪表盘

比如这个图展示了在192.168.XX这个IP的机器上,/var/log/nginx/access.log这个文件存在重复配置问题,两个配置的详情分别是:

配置1:

  • project:xxx-test-hongkong

  • logstore:sls-lens-logtail-test

  • 采集配置名:access_log1

配置2

  • project:xxx-test-hongkong

  • logstore:sls-lens-logtail-test

  • 采集配置名:access_log2

具体场景与方案建议

不需要重复采集同一个日志文件

大多数的场景下,对日志文件的重复配置都不是预期的,通常是采用通配符的方式、或者文件层级配置的过大,导致的误重复,在这种情况下,可以采取如下措施:

由上面展示的报错详情,我们去对应的project/logstore下面分别找到对应的采集配置。

image.png

可能会导致文件配置冲突的配置有如下几种:

日志文件路径配置的层级过大

采集配置access_log1:

  • 路径:/var/log/nginx, 文件:access.log

采集配置access_log2:

  • 路径:/var/log, 文件:access.log

image.pngimage.png

此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。

方案建议

此时需要细化access_log2配置的路径,比如指定/var/log/service,由此可以避免命中同样的文件。

日志文件名通配符匹配的范围过大

采集配置access_log1:

  • 路径:/var/log/nginx, 文件:access.log

采集配置access_log2:

  • 路径:/var/log/nginx, 文件:*.log

image.pngimage.png

此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。

方案建议

此时需要细化access_log2的文件名配置,比如指定/var/log/nginx/error.log,由此可以避免命中同样的文件。

容器场景下过滤条件范围太大

容器场景下,还存在一个容器过滤条件的可能。

容器A:

  • label配置了test: true 和service: A

  • 采集配置access_log1,配置的Label白名单为service: A,采集路径为/var/log/nginx/access.log。

容器B:

  • label配置了test: true和service: B

  • 采集配置access_log2,配置的Label白名单为test: true,采集路径为/var/log/nginx/access.log。

image.pngimage.png

此时可以知道采集配置access_log2,命中了两个容器A和B,采集配置access_log1只命中了A容器。由于两个容器的采集文件路径配置的相同,B容器中的/var/log/nginx/access.log会同时被1和2两个配置去采集。

方案建议

在这种场景下,需要细化容器过滤条件,确保采集配置access_log1就只采集A容器,采集配置access_log2就只采集B容器,这样可以避免容器场景下的冲突。

需要重复采集同一个日志文件

方案建议

如果确实有需求,要把一个日志文件采集多次的话,可以参考操作文档,使用软连接的方案,或者添加强制采集配置,需要注意因为在客户端上对文件中的日志采集多份需要消耗多倍的CPU、内存、磁盘IO和网络IO开销,会对同机部署的其他服务性能造成额外影响,并非优化的日志采集方案。

参考资料

关于iLogtail

iLogtail作为阿里云SLS提供的可观测数据采集器,可以运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据(日志、监控、Trace、事件等)。目前,iLogtail已正式开源,欢迎使用及参与共建。

GitHub:https://github.com/alibaba/ilogtail

社区版版本:https://ilogtail.gitbook.io/ilogtail-docs/about/readme

企业官网:https://help.aliyun.com/document_detail/65018.html

钉钉群:iLogtail社区

image.png
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
相关文章
|
7月前
日志 问题排查
日志 问题排查
43 1
|
7月前
|
存储 JSON 监控
【最佳实践】使用CloudLens排查日志时间解析错误问题
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:日志时间解析错误问题。
269 1
【最佳实践】使用CloudLens排查日志时间解析错误问题
|
7月前
|
数据采集 监控 Kubernetes
【最佳实践】使用CloudLens排查iLogtail采集配置错误问题
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:采集配置错误问题。
447 0
【最佳实践】使用CloudLens排查iLogtail采集配置错误问题
|
运维 安全 应用服务中间件
记一次"非常诡异"的云安全组规则问题排查过程
记一次"非常诡异"的云安全组规则问题排查过程
157 0
记一次"非常诡异"的云安全组规则问题排查过程
|
SQL 存储 Cloud Native
用户指南—诊断与优化—慢日志
本文介绍了PolarDB-X的慢日志查询功能。
118 0
用户指南—诊断与优化—慢日志
|
7月前
|
数据采集 运维 Kubernetes
【最佳实践】使用CloudLens排查iLogtail重启问题
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:iLogtail异常重启问题。
669 0
【最佳实践】使用CloudLens排查iLogtail重启问题
|
7月前
|
运维 监控 安全
SLS相同监控规则太多?试试告警监控模板
本文主要介绍了SLS自定义告警监控模板的使用场景以及最佳实践。
151 0
SLS相同监控规则太多?试试告警监控模板
|
监控 小程序 JavaScript
别再乱打日志了,这样才是定位 bug 打日志的方式!
别再乱打日志了,这样才是定位 bug 打日志的方式!
|
7月前
|
监控 Kubernetes 应用服务中间件
【最佳实践】使用CloudLens排查文件/目录数超限问题(STAT_LIMIT_ALARM, DIR_EXCEED_LIMIT_ALARM)
本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:包括STAT_LIMIT_ALARM, DIR_EXCEED_LIMIT_ALARM等诊断错误的文件/目录数超限问题,。
633 0
【最佳实践】使用CloudLens排查文件/目录数超限问题(STAT_LIMIT_ALARM, DIR_EXCEED_LIMIT_ALARM)
|
缓存 JSON 算法
如何打日志才能方便排查问题?
在程序中打错误日志的主要目标是为更好地排查问题和解决问题提供重要线索和指导。但是在实际中打的错误日志内容和格式变化多样,错误提示上可能残缺不全、没有相关背景、不明其义,使得排查解决问题成为非常不方便或者耗时的操作。而实际上,如果编程的时候稍加用心,就会减少排查问题的很多无用功。