本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:重复采集配置问题。
目标读者
数字化系统开发运维(DevOps)工程师、稳定性工程师(SRE)、可观测平台运维人员等。
背景介绍
iLogtail 是阿里云日志服务(SLS)团队自研的可观测数据采集 Agent,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,可以部署于物理机、虚拟机、Kubernetes 等多种环境中来采集遥测数据。目前 iLogtail 广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景,在实战中验证了其强大的性能和稳定性。
CloudLens for SLS是日志服务推出的一款应用,帮助用户监控和管理日志服务Project、Logstore等资产,提升用户对日志服务资产的管理效率、快速了解其消耗情况。
使用场景
文件日志采集是日志采集Agent最常见的数据采集场景,iLogtail目前支持主机上文件采集以及容器场景下的文件采集。但是文件采集在实战中会遇到各种各样的问题,基于此场景,CloudLens for SLS集成了针对iLogtail的状态监控,可以实时的反馈当前iLogtail Agent的运行状况。
问题描述
iLogtail文件采集,默认情况下,同一个日志文件,只允许被一个采集配置采集,如果有两个或者两个以上的采集配置采集了同一个日志文件,那么就会报这个错误。如此设计,主要有两个原因:
重复的采集会导致存储成本翻倍。
用户配置采集文件的时候,通常是采用通配符的方式,在不同的采集配置中,容易导致采集文件容复。日志文件的监控和采集都是需要占用一定资源的,如果不加以限制,会导致资源占用非常大。
问题影响范围
针对同一个日志文件,只会有一个采集配置生效,其他采集配置会跳过该文件(其他文件不受影响)。
错误发现
CloudLens for SLS页面,点击报表中心下采集监控,然后查看iLogtail异常监控:
可以看到针对日志文件重复配置问题(MULTI_CONFIG_MATCH_ALARM)有一个专门的报表,里面详细展示了问题发生的时间、IP、产生重复的日志文件路径以及两个重复配置所在的project、logstore和采集配置的名字。由此客户可以清晰的看到自己的哪台机、哪个日志文件、在哪两个采集配置中重复了。
比如这个图展示了在192.168.XX这个IP的机器上,/var/log/nginx/access.log这个文件存在重复配置问题,两个配置的详情分别是:
配置1:
project:xxx-test-hongkong
logstore:sls-lens-logtail-test
采集配置名:access_log1
配置2
project:xxx-test-hongkong
logstore:sls-lens-logtail-test
采集配置名:access_log2
具体场景与方案建议
不需要重复采集同一个日志文件
大多数的场景下,对日志文件的重复配置都不是预期的,通常是采用通配符的方式、或者文件层级配置的过大,导致的误重复,在这种情况下,可以采取如下措施:
由上面展示的报错详情,我们去对应的project/logstore下面分别找到对应的采集配置。
可能会导致文件配置冲突的配置有如下几种:
日志文件路径配置的层级过大
采集配置access_log1:
路径:/var/log/nginx, 文件:access.log
采集配置access_log2:
路径:/var/log, 文件:access.log
此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。
方案建议
此时需要细化access_log2配置的路径,比如指定/var/log/service,由此可以避免命中同样的文件。
日志文件名通配符匹配的范围过大
采集配置access_log1:
路径:/var/log/nginx, 文件:access.log
采集配置access_log2:
路径:/var/log/nginx, 文件:*.log
此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。
方案建议
此时需要细化access_log2的文件名配置,比如指定/var/log/nginx/error.log,由此可以避免命中同样的文件。
容器场景下过滤条件范围太大
容器场景下,还存在一个容器过滤条件的可能。
容器A:
label配置了test: true 和service: A
采集配置access_log1,配置的Label白名单为service: A,采集路径为/var/log/nginx/access.log。
容器B:
label配置了test: true和service: B
采集配置access_log2,配置的Label白名单为test: true,采集路径为/var/log/nginx/access.log。
此时可以知道采集配置access_log2,命中了两个容器A和B,采集配置access_log1只命中了A容器。由于两个容器的采集文件路径配置的相同,B容器中的/var/log/nginx/access.log会同时被1和2两个配置去采集。
方案建议
在这种场景下,需要细化容器过滤条件,确保采集配置access_log1就只采集A容器,采集配置access_log2就只采集B容器,这样可以避免容器场景下的冲突。
需要重复采集同一个日志文件
方案建议
如果确实有需求,要把一个日志文件采集多次的话,可以参考操作文档,使用软连接的方案,或者添加强制采集配置,需要注意因为在客户端上对文件中的日志采集多份需要消耗多倍的CPU、内存、磁盘IO和网络IO开销,会对同机部署的其他服务性能造成额外影响,并非优化的日志采集方案。
参考资料
关于iLogtail
iLogtail作为阿里云SLS提供的可观测数据采集器,可以运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据(日志、监控、Trace、事件等)。目前,iLogtail已正式开源,欢迎使用及参与共建。
GitHub:https://github.com/alibaba/ilogtail
社区版版本:https://ilogtail.gitbook.io/ilogtail-docs/about/readme
企业官网:https://help.aliyun.com/document_detail/65018.html
钉钉群:iLogtail社区