图文解析带你精通时序PromQL语法
[阿里云SLS可观测团队发布] 本文通过图文解析深入讲解PromQL的计算原理,涵盖其与SQL的差异、时间线模型、选点机制、聚合函数、窗口函数及常见非预期场景,帮助用户掌握PromQL的核心语法与执行逻辑。
78_资源监控:NVIDIA-SMI进阶
在大语言模型(LLM)训练和推理过程中,GPU资源的高效监控和管理至关重要。随着模型规模的不断增长和计算需求的提升,如何精确监控GPU利用率、及时发现性能瓶颈并进行优化,成为AI研究人员和工程师面临的重要挑战。NVIDIA-SMI作为NVIDIA官方提供的GPU监控工具,提供了丰富的功能来监控和管理GPU资源。本文将深入探讨NVIDIA-SMI的进阶使用方法,以及如何利用其与其他工具结合构建高效的GPU利用率可视化监控系统。
《云原生场景下Prometheus指标采集异常的深度排查与架构修复》
本文聚焦云原生监控系统中Prometheus采集K8s容器指标的“间歇性无数据”问题,还原其技术环境(K8s 1.28.3、Prometheus 2.45.0等)与故障现象(指标缺失5-15分钟,高峰期频发)。排查发现,根源在于kubelet的cadvisor指标生成线程不足、缓存策略不当,叠加Calico iptables转发延迟。通过优化kubelet参数(增线程、缩缓存)、调整Prometheus采集策略(延间隔、分片采集)、切换Calico为IPVS模式,问题得以解决。同时给出长期监控预警方案,为云原生监控运维提供实践思路,强调全链路协同优化的重要性。
日志收集和Spring 微服务监控的最佳实践
在微服务架构中,日志记录与监控对系统稳定性、问题排查和性能优化至关重要。本文介绍了在 Spring 微服务中实现高效日志记录与监控的最佳实践,涵盖日志级别选择、结构化日志、集中记录、服务ID跟踪、上下文信息添加、日志轮转,以及使用 Spring Boot Actuator、Micrometer、Prometheus、Grafana、ELK 堆栈等工具进行监控与可视化。通过这些方法,可提升系统的可观测性与运维效率。