一分钟完成ECS机器数据的智能巡检告警-阿里云开发者社区

开发者社区> 阿里云存储服务> 正文
登录阅读全文

一分钟完成ECS机器数据的智能巡检告警

简介: 对于运维的日常工作来说,服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中,管理员必须能够掌握所有服务器的运行状况,以便及时发现问题,尽可能减少故障的发生。本次主要介绍如何使用智能巡检,帮助您快速完成机器(ECS)相关指标的监控,降低您设置告警的复杂规则和冗余的设置。

系列文章

对于运维的日常工作来说,服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中,管理员必须能够掌握所有服务器的运行状况,以便及时发现问题,尽可能减少故障的发生。本次主要介绍如何使用智能巡检,帮助您快速完成机器(ECS)相关指标的监控,降低您设置告警的复杂规则和冗余的设置。

设置步骤

创建MetricStore,完成机器组配置

  • 创建MetricStore

image

  • 选择需要监控的机器,安装Logtail采集插件

image

  • 等待插件安装完成

image

  • 针对配置的机器,将完成采集的机器组

image

设置针对机器指标的采集配置

SLS的主机监控方案非常简单,只需要安装一个Logtail就可以采集各个主机的基础指标,服务端都是云化,无需运维,默认SLS提供了可视化的仪表盘,也可以通过Grafana来进行更加专业的可视化。
image
目前Logtail采集了主机常用的基础指标,包括CPU、内存、网络、磁盘等,其中对较为关键的指标都做了可视化,便于直接查看。通过对采集配置中(插件配置)的模式下,使用如下配置,可以完成上述指标的采集。

{
  "inputs": [
    {
      "detail": {
      "IntervalMs": 30000
      },
      "type": "metric_system_v2"
    }
  ]
}

在接入的过程中,有个辅助的开关【开启指标巡检】,如果选择了开启,则会同时创建对应的【巡检任务】和存放巡检结果的LogStore。我们通过如下操作,可以查看对应的资源情况。

image

结果分析

基础数据分析

* | select DISTINCT __name__ from "machine_metric_logtail.prom" where __name__ != '' limit 10000

在MetricStore中,使用如上的分析语句,可以查看我们一共采集了多少指标,以及对应的指标内容。

image

智能巡检结果可视化

image

image

image

如何使用巡检大盘

  • 用户可以在【巡检大盘】中选择【异常列表】中对应【hostname】这一列,选择从机器维度出发,去查看对应的异常情况
  • 在【异常显示】部分,每个异常都会标注在指标的曲线中,您可通过鼠标拖拽选择时间区间,点击异常点查看异常详情并跳转到详细的监控页面

image

image

用户可以在【仪表盘】中,找到对应的【巡检仪表盘】,可以通过手动拖拽的形式选中对应的区间,可以完成多个图表联动的可视化,更加便于您查看单个机器的状态是否正常。

参考文档

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云存储基于飞天盘古2.0分布式存储系统,产品多种多样,充分满足用户数据存储和迁移上云需求。

官方博客
最新文章
相关文章
存储产品
客户案例