java线上服务问题排查总结
java线上服务问题排查
1、业务日志相关
如果应用系统出现异常,一般都会在业务日志中体现
查看日志问题常用命令,以标装springboot应用为例:
进到标装日志目录:cd /wls/applogs/rtlog/spri* --善用tab键
统计当天业务日志中ERROR出现数量:egre.
基于阿里云容器服务监控 Kubernetes集群GPU指标
### 简介
当您在阿里云容器服务中使用GPU ECS主机构建Kubernetes集群进行AI训练时,经常需要知道每个Pod使用的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,本文介绍如何快速在阿里云上构建基于Prometheus + Grafana的GPU监控方案。