【翻译】Prometheus 2.5.0 新特性
Prometheus 2.5.0 现在(2018.11.12)已经发布,在 9 月份的 2.4.0 之后又进行了一些修正和改进。
这是新的6周计划的第二次发布。第一个重要的特性是,基于我们内部用于单元测试PromQL本身的语法,现在promtool中对规则和警报进行了单元测试。
【翻译】Prometheus 2.3.0 新特性
Prometheus 2.3.0 现在(2018.6.11)已经发布,在 3 月份的 2.2.0 之后又进行了一些修正和改进。
这个版本中最大的变化是与性能相关的。我对PromQL的评估方式进行了重大更改,这可以为常见仪表板查询减少31-64%的CPU和55-99%的内存分配。
【翻译】Prometheus 2.2.0 新特性
Prometheus 2.2.0 现在(2018.3.12)已经发布,在 1 月份的 2.1.0 之后又进行了一些修正和改进。
这个版本的存储格式发生了变化,所以一旦升级到2.2.0,就不可能降级回去。
【翻译】Prometheus 2.4.0 新特性
Prometheus 2.4.0 现在(2018.9.17)已经发布,在 6 月份的 2.3.0 之后又进行了一些修正和改进。
第一个较大的变化是,对于警报中的状态,现在跨重启持久化,因此短暂的重启将不再需要挂起警报从头开始。
体验托管Prometheus监控阿里云容器服务Kubernetes的GPU资源
通过ARMS管理Kubernetes集群GPU性能指标
在阿里云容器服务中使用GPU资源运行进行AI模型训练和预测时,经常需要了解应用负载的GPU的使用情况,比如每块显存使用情况、GPU利用率,GPU卡温度等监控信息,通过内置ARMS可以从应用的维度去观测GPU的使用情况,了解资源水位,以及设定相应的报警,避免因为GPU资源的约束引发业务风险。