在数字化时代,随着业务需求的快速增长和技术架构的不断演进,微服务架构因其灵活性、可伸缩性和高内聚低耦合等特点,逐渐成为企业构建复杂应用系统的首选。然而,微服务架构的碎片化、动态性和复杂性也给系统的稳定性、安全性和性能带来了前所未有的挑战。在这一背景下,微服务监控作为保障系统稳定运行的最后一道防线,显得尤为重要。
一、微服务监控的重要性
微服务监控是指对微服务架构中的各个服务进行实时、全面的性能、状态和安全等方面的监测与管理。通过收集、分析和展示服务运行过程中的各种数据,微服务监控能够帮助运维人员和开发人员及时发现潜在问题、定位故障原因、优化系统性能,从而确保整个微服务架构的稳定性和可用性。
在微服务架构中,服务间的依赖关系错综复杂,任何一个服务的故障都可能引发连锁反应,导致整个系统的崩溃。因此,通过微服务监控,我们可以实时掌握系统中各个服务的运行状态和性能指标,及时发现并处理异常情况,避免故障扩散和升级。同时,微服务监控还可以提供历史数据和趋势分析,帮助运维团队预测系统容量和性能瓶颈,为业务决策提供有力支持。
二、构建微服务监控体系
要构建有效的微服务监控体系,我们需要从监控策略、数据采集与处理、可视化与告警等方面入手。
1、制定合理的监控策略是关键
我们需要根据业务需求和系统特点,选择合适的监控指标,如响应时间、吞吐量、错误率等,并设置合理的监控频率和精度。同时,我们还需要关注服务间的依赖关系和调用链路,确保监控能够覆盖整个微服务架构的所有关键环节。
2、数据采集与处理是微服务监控的基础
我们需要通过部署在各个服务节点上的监控代理或 SDK,实时收集服务运行过程中的各种数据,包括性能指标、日志信息、异常事件等。这些数据经过聚合和分析后,可以转化为有价值的监控信息,为故障排查和优化提供依据。
数据的采集有“三大支柱”:指标(metrics),日志(logs)和链路追踪(Tracing):
指标:是在⼀段时间内测量的数值。它包括特定属性,例如时间戳、名称、键和值。和⽇志不同,指标在默认情况下是结构化的,这会让查询和优化存储变得更加容易。
日志:是对特定时间发⽣的事件的⽂本记录。日志一般是非结构化字符串,会在程序执行期间被写入磁盘。每个请求会产生一行或者多行的日志,每个日志行可能包含 1-5 个维度的有用数据(例如客户端 IP,时间戳,调用方法,响应码等等)。当系统出现问题时,⽇志通常也是工程师⾸先查看的地⽅。
链路追踪:有时候也被称为分布式追踪(Distributed Tracing),表示请求通过分布式系统的端到端的路径。当请求通过主机系统时, 它执⾏的每个操作被称为“跨度”(Span)。
举个分布式调用的例子:客户端发起请求,请求首先到达负载均衡器,经过认证服务、系统服务,然后请求资源,最终返回结果;那这里面的操作就包括请求网关、身份认证、请求资源、以及返回结果等。链路追踪一般会通过一个可视化的瀑布图展现出来。瀑布图展示了用于调试的请求的每个阶段,以及每个部分的开始时间和持续时长。
了解了这些,那我们要在哪些方面来进行这三个指标的采集呢?从业务发展的角度看主要要监控这几方面:
- 基础设施监控
- 系统层监控
- 应用层监控
- 业务层监控
- 端用户体验监控
下面我讲述下系统层和应用层的监控怎么做,业务层和端用户体验层和业务比较相关,很难有通用性,基础设施层在业内也有比较通用的解决方案了。
应用层的指标主要有:
- 服务概览信息:如服务名称、服务部署所在机房、主机、服务包含的API、服务相关配置信息、服务负责人、开发人员、运维人员信息等;
- 服务性能指标:如响应实现、流量、成功、失败数、请求频率等;
- 服务拓扑关系:服务之间的调用关系;
- 服务调用链:服务的整个调用链监控;
- 服务版本信息:服务版本,客户端版本等;
- 服务治理状态:服务注册情况、服务状态、熔断等;
组件内部状态:活跃线程数、处理请求数、应用访问缓存的相关指标、数据库访问指标、应用本身所在虚拟机情况 包括 CPU、Load、Memory 等情况、消息发布监控指标、消息订阅监控指标、JVM 监控指标、端口检测监控指标;
每个指标根据应用组件的不同和公司的情况都会有一些不一样,而且每个指标自己内部的指标也很多,例如JVM 指标:
其中包含GC中的ygc 次数、ygc 总耗时、fgc 总次数、fgc 总耗时、在 tlab 分配的总大小,Runtime中的线程(被 start 过的)数量、存活的线程的数量、daemon 线程数量、活的线程的峰值数量、safepoints 次数、safepoint 时间、safepoint sync 阶段花费的总时间、应用运行总时间等,Eden区域的Eden 区使用量、Eden 区总容量、Old 区域中的Old区使用量、Old 区总容量,Metaspace区的Metaspace 的使用量、当前 Metaspace 的容量等等。
我们要根据自己所用的组件和项目情况进行搭建监控体系,至少做好这几方面的监控:日志监控,Metrics监控(服务调用情况),调用链监控,告警系统和健康检查。
3、可视化与告警是微服务监控的重要输出
我们需要通过直观的监控仪表盘和图表,展示服务的运行状态和性能指标,帮助运维人员快速了解系统整体情况。
现在比较流行的工具是Grafana,同时,我们还需要建立灵活的告警机制,当某个服务的性能指标超过预设阈值时,能够自动触发告警通知,确保团队能够及时发现并处理异常情况。一般告警要定义好指标,指标可能是直接可以上报上来的,也可能是需要再进行用sql或者其他方式定义的,然后进行配置告警的相关信息,如下:
- 订阅人:选择订阅人。
- 告警等级:支持 全部订阅、P0、P1、P2、P3、P4。
- 通知降频:要设置包含 开启 和 关闭 两个开关。默认开启。若是持续发生的告警,按照每隔 1 分钟、2 分钟、5 分钟、10 分钟、30 分钟、60 分钟的频率进行降级通知。其中每隔 1 分钟、2 分钟通知两次,每隔 5 分钟通知三次,每隔 10 分钟、30 分钟通知五次,直到每隔一个小时通知一次。
三、提升微服务监控效果的策略
为了进一步提升微服务监控的效果和价值,我们可以从以下几个方面入手:
一是持续优化和迭代监控体系:
随着业务需求和系统架构的变化,我们需要不断调整和优化监控策略、数据采集与处理方式和可视化与告警机制等,确保监控体系能够始终适应系统的变化和发展需求,例如使用dubbo可以升级dubbo版本到高版本,可以利用原生的可观测性,官网地址:https://cn.dubbo.apache.org/zh-cn/overview/tasks/observability/。
二是将监控与业务场景深度融合:
我们可以根据业务特点和需求定制监控方案,利用监控数据优化业务决策和流程设计,实现业务与技术的双向驱动和协同发展。
三是建立跨团队的监控协作机制:
我们需要打破团队壁垒和信息孤岛现象,实现运维、开发、测试等团队之间的信息共享和协同工作,共同应对微服务架构带来的挑战和问题。
四、未来发展趋势与挑战
随着人工智能、云计算和大数据等技术的不断发展与应用,微服务监控将面临更多的发展机遇和挑战。
一方面人工智能和机器学习等技术可以帮助我们实现更精准的故障预测和自动化处理;云计算和大数据等技术则可以提高监控数据的存储和处理效率,支持更大规模、更复杂的微服务架构的监控需求。
另一方面,随着多云环境和混合云架构的普及应用,如何在不同云环境之间实现统一的监控和管理将成为一个亟待解决的问题;同时安全性和隐私保护等方面的挑战也不容忽视,我们需要确保监控数据的合规性和安全性要求得到充分满足。
现在我了解到的比较先进的工具有 eBPF 等,成熟的产品如下:
DeepFlow 是面向混合云、容器、微服务的全栈虚拟化环境,解决云原生应用诊断难的核心痛点。基于自主研发的零侵扰采集和高性能实时数仓等创新技术,实现对网络、系统、应用的全栈指标采集和全链路追踪,并结合云资源知识图谱实现100+维度指标数据的动态标注,构建多维度、一体化的可观测性平台,
还有 Kindling-OriginX 这样的利用创新型TraceProfiling 技术构建的一款故障根因推导产品 ,
观测云这样专业做可观测性的公司也有很多产品,阿里云上也有很多可观测性产品也值得关注。
微服务监控作为保障系统稳定运行的最后一道防线,在微服务架构中扮演着至关重要的角色。通过构建全面、实时、智能的微服务监控体系,我们可以及时发现并处理潜在问题、优化系统性能、提升用户体验和业务连续性水平。未来随着技术的不断创新和应用场景的不断拓展,我们有理由相信微服务监控将发挥更加重要的作用并迎来更加广阔的发展前景。