微服务架构下日志采集运维管理分析

本文涉及的产品
MSE Nacos/ZooKeeper 企业版试用,1600元额度,限量50份
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
注册配置 MSE Nacos/ZooKeeper,182元/月
简介: 阿里云日志服务(SLS)结合Kubernetes日志特点以及应用场景,提供全方位的容器微服务应用环境下的日志采集、处理以及分析的实践。

直达最佳实践:【微服务架构日志采集运维管理最佳实践
最佳实践频道:【最佳实践频道
这里有丰富的企业上云最佳实践,从典型场景入门,提供一系列项目实践方案,降低企业上云门槛的同时满足您的需求!

Kubernetes日志系统的重要性

云原生对于微服务可观测性的一项重要标准就是日志记录(logging)。日志的采集、存储和分析时构建现代系统平台的关键支柱之一,可以帮助团队进行问题的诊断、质量的回溯、系统运营效率监控等。在当今容器/Kubernetes技术大火的环境下,日志系统对于Kubernetes也起着非常关键的作用,对于Devops、运营、安全等方面都离不开完整多样有效的日志采集、存储管理和分析,从下图可见。

1.png

微服务架构下日志采集运维管理面临的挑战

众所周知,随着容器/Kubernetes技术在微服务落地过程中相对物理机、VM在应用部署、应用交付等环节给用户提供了更加简单轻量、高性价比等优势,而且用户在应用容器/Kubernetes技术做微服务改造过程中,也同时存在容器化应用/非容器化应用混合部署的形态。对于基于VM或者物理机部署的应用,日志采集相关技术都比较完善,有比较健全的Logstash、Fluentd、FileBeats等,但是在应用容器化特别是基于Kubenetes集群做微服务应用部署时,日志采集运维给用户带来了不小的挑战,主要的原因有:

  • 日志采集目标多,需要采集宿主机日志、容器内日志、容器stdout,存在多种应用数据及多种日志格式,缺乏统一的一站式日志采集解决方案;
  • 集群弹性伸缩、环境动态性强、服务动态迁移等都给日志采集带来了很大的困难,日志采集的动态性以及数据完整性都是非常大的挑战;
  • 运维成本非常大,已有的一些方案只能使用多种软件组合采集,各个软件组装起来的系统稳定性难以保障,且缺乏中心化的管理、配置、监控手段,运维负担大;
  • 日志采集Agent侵入性高,Docker Driver扩展需要修改底层引擎,一个Container对应采集一个日志采集Agent又会产生资源竞争和浪费
  • 日志采集性能低,正常情况下一个Docker Engine会运行数十个甚至数百个Container,此时开源日志采集Agent采集性能及资源消耗十分不理想;
  • 日志分析效率和手段缺乏,开源的日志分析展现工具对于日志的实时分析、智能分析等缺乏简单有效的可视化手段。

    2.png

阿里云Kubernetes日志采集方案

基于以上分析,阿里云日志服务产品针对用户在基于Kubernetes做应用微服务改造落地过程中日志采集运维管理的需求和痛点,结合阿里云组合云产品的优势,提出了一站式的日志采集运维管理分析的解决方案,提供了强大的日志处理分析能力,如PB级日志实时查询、日志聚类分析、Ingress日志分析报表、日志分析函数、上下游生态对接等能力,提供用户在 容器/Kubernetes技术落地应用微服务改造过程中的日志采集运维管理一站式能力。

3.png


- Ingress日志解决方案
Kubernetes中Ingress是一种API资源的声明,具体的实现需要由Ingress Controller来接管Ingress定义,目前比较流行的Ingress Controller实现有Nginx、Traefik、listio、Kong等,在国内接受度最高的是Nginx Ingress Controller。
日志和监控是所有Ingress Controller都会提供的基础功能,日志一般包括访问日志(Access Log)、控制日志(Controller Log)和错误日志(Error Log),监控主要从日志以及Controller中提取Metrics信息。这心数据中访问日志的量级最大、信息最多、价值也最高,一般七层的访问日志包括:URL、源IP、UserAgent、状态码、入流量、出流量、响应时间等,对于Ingress Controller这种转发型的日志,还包括转发的Service名、Service响应时间等额外信息。从这些信息中,我们能够分析出非常多的有用信息,例如:网站访问的PV、UV;访问的地域分布、设备端分布;网站访问的错误比例;后端服务的响应延迟;不同URL访问分布等。但是手动搭建并运维一整套的Ingress日志分析与监控系统非常复杂,系统需要非常多的模块,例如部署日志采集Angent并配置采集和解析规则,部署实时数据分析引擎例如Elastic Search、Clickhouse等,部署可视化组件并搭建报表例如Grafana、Kibana等,部署告警模块等配置告警规则例如ElastAlert等,而且由于Kubernetes集群的访问量相对较大,因此还需要搭建一个缓冲队列例如Redis、Kafka等。
为了简化用户对于Ingress日志分析与监控的门槛,阿里云容器服务和日志服务将Ingress打通,只需要应用一个yaml资源即可完成日志采集、分析、可视化等一整套Ingress日志方案的部署。 4.png



- Kubernetes 容器日志采集分析与监控
日志作为任一系统不可或缺的部分,Kubernetes的官方文档也介绍了多种日志采集形式,总结起来主要有下述三种:原生方式、DaemonSet方式和SideCar方式。
- 原生方式:使用kubectl logs直接查看本地保留的日志,或者通过docker engine的logging driver将日志重定向到文件、syslog、fluentd等系统中。
- DaemonSet方式:在Kubernetes集群的每个节点上部署日志agent,由agent采集所有容器的日志到服务端。
- SideCar方式:一个容器组(Pod)中运行一个SideCar的日志agent容器,用于采集该容器组(Pod)主容器产生的日志。SideCar模式的日志采集依赖Logtail和业务容器共享日志目录,业务容器将日志写入到共享目录中,Logtail通过监控共享目录中日志文件变化并采集日志。

采集方式对比见下表。 8.png
从上述表格可以看出,原生方式相对功能太弱,一般不建议在生产系统中使用;DameonSet方式相对资源占用要小很多,但扩展性、租户隔离性受限,比较适用于功能单一或者业务不是很多的集群;SideCar方式相对资源占用较多,但灵活性以及多租户隔离性较强,建议大型的Kubernetes集群或作为PAAS平台为多个业务方服务的集群使用该方式。通常我们可以这样进行采集部署建议:
- 核心应用:使用SideCar方式采集。
- 普通应用/系统日志:使用DaemonSet方式采集。
- 标准输出: 使用DaemonSet方式采集。 6.png


### 总结

本文介绍了基于Kubernetes进行应用微服务改造过程中的日志采集与运维管理方案,限于篇幅,本文无法对具体实施建议以及更多特色功能进行一一介绍,请大家详细阅读阿里云官网最佳实践频道的 微服务架构日志采集运维管理最佳实践

7.png

相关实践学习
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
相关文章
|
18天前
|
存储 调度 C++
16 倍性能提升,成本降低 98%! 解读 SLS 向量索引架构升级改造
大规模数据如何进行语义检索? 当前 SLS 已经支持一站式的语义检索功能,能够用于 RAG、Memory、语义聚类、多模态数据等各种场景的应用。本文分享了 SLS 在语义检索功能上,对模型推理和部署、构建流水线等流程的优化,最终带给用户更高性能和更低成本的针对大规模数据的语义索引功能。
|
6月前
|
监控 Kubernetes Go
日志采集效能跃迁:iLogtail 到 LoongCollector 的全面升级
LoongCollector 在日志场景中实现了全面的重磅升级,从功能、性能、稳定性等各个方面均进行了深度优化和提升,本文我们将对 LoongCollector 的升级进行详细介绍。
502 86
|
4月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
2月前
|
机器学习/深度学习 运维 监控
运维日志里的“读心术”:深度学习能看出啥?
运维日志里的“读心术”:深度学习能看出啥?
180 74
|
存储 运维 开发工具
警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践
本文探讨了日志管理中的常见反模式及其潜在问题,强调科学的日志管理策略对系统可观测性的重要性。文中分析了6种反模式:copy truncate轮转导致的日志丢失或重复、NAS/OSS存储引发的采集不一致、多进程写入造成的日志混乱、创建文件空洞释放空间的风险、频繁覆盖写带来的数据完整性问题,以及使用vim编辑日志文件导致的重复采集。针对这些问题,文章提供了最佳实践建议,如使用create模式轮转日志、本地磁盘存储、单线程追加写入等方法,以降低日志采集风险,提升系统可靠性。最后总结指出,遵循这些实践可显著提高故障排查效率和系统性能。
851 21
|
5月前
|
存储 运维 开发工具
警惕日志采集失败的 6 大经典雷区:从本地管理反模式到 LoongCollector 标准实践
本文总结了日志管理中的六大反模式及优化建议,涵盖日志轮转、存储选择、并发写入等常见问题,帮助提升日志采集的完整性与系统可观测性,适用于运维及开发人员优化日志管理策略。
155 5
|
16天前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
108 1
|
2月前
|
存储 Kubernetes 监控
Kubernetes日志管理:使用Loki进行日志采集
通过以上步骤,在Kubernetes环境下利用LoKi进行有效率且易于管理地logs采集变成可能。此外,在实施过程中需要注意版本兼容性问题,并跟进社区最新动态以获取功能更新或安全补丁信息。
166 16

热门文章

最新文章