在阿里云ARMS为什么早上指标采集已经关闭了,还在产生数据?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在阿里云ARMS中,即使早上已经关闭了指标采集,仍然可能产生数据的原因主要与以下几个方面有关:
如果使用的是可观测监控 Prometheus 版,可能是由于默认服务发现、ServiceMonitor、PodMonitor 或自定义服务发现功能未完全关闭。这些功能会在后台持续采集指标,从而导致数据的产生。
解决方案: - 检查是否已正确关闭所有服务发现功能。例如,Prometheus for 容器服务实例可以通过管理 Kubernetes 集群服务发现页面进行关闭;Prometheus for ECS 实例则需通过管理 Prometheus 实例 for ECS 服务发现页面操作。
即使关闭了指标采集,之前采集的数据可能仍会保留在系统中,并在一定时间内显示。根据存储周期配置,调用链数据默认存储30天,指标数据存储90天。因此,关闭采集后,历史数据可能仍会显示一段时间。
重要提醒: - 如果希望彻底停止数据的产生和存储,建议同时检查端侧是否仍在上报数据,并确保关闭所有相关的采集任务。
如果调用链指标聚合功能未关闭,系统可能会基于之前采集的调用链数据继续计算服务指标。这会导致即使采集任务已停止,仍然有部分聚合数据生成。
解决方案: - 在集群配置页面检查并关闭调用链指标聚合功能,以确保不再基于历史数据生成新的指标。
如果您最近升级了 ARMS 探针至 4.x 版本,可能会因为以下原因导致数据量增加: - 无入口场景下的内部调用生成 Span:4.x 探针在无入口场景下会生成额外的 Span,导致数据上报量增加。 - 线程池和连接池监控增强:4.x 探针对线程池和连接池的支持更加全面,可能导致指标量上涨。 - 异步调用支持:4.x 探针支持异步自动透传,可能导致接口上下游指标量增加。
解决方案: - 检查探针版本是否为 4.x,并评估是否需要回退到 3.x 版本以减少数据量。 - 如果必须使用 4.x 探针,可以参考相关文档关闭不必要的功能(如线程分析)以减少数据上报量。
建议操作: - 确认关闭操作是否已成功执行,并等待一段时间观察数据是否停止产生。 - 如果问题仍未解决,建议联系阿里云技术支持团队进一步排查。
综上所述,早上关闭指标采集后仍然产生数据的原因可能包括服务发现功能未关闭、历史数据的存储周期影响、调用链指标聚合未关闭、探针升级导致的额外数据上报等。建议按照上述步骤逐一排查并解决问题。
云原生可观测基于Prometheus、Grafana 、OpenTelemetry 等核心产品, 形成指标、链路存储分析、异构数据源集成的数据层, 通过标准PromQL和SQL提供大盘展示、告警与探索能力。