一分钟完成ECS机器数据的智能巡检告警-阿里云开发者社区

一分钟完成ECS机器数据的智能巡检告警

2021-07-26 1077

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 对于运维的日常工作来说，服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中，管理员必须能够掌握所有服务器的运行状况，以便及时发现问题，尽可能减少故障的发生。本次主要介绍如何使用智能巡检，帮助您快速完成机器（ECS）相关指标的监控，降低您设置告警的复杂规则和冗余的设置。

系列文章

一分钟完成访问数据的智能巡检告警

对于运维的日常工作来说，服务器监控是必须且最基础的一项内容。在企业基础设施运维过程中，管理员必须能够掌握所有服务器的运行状况，以便及时发现问题，尽可能减少故障的发生。本次主要介绍如何使用智能巡检，帮助您快速完成机器（ECS）相关指标的监控，降低您设置告警的复杂规则和冗余的设置。

设置步骤

创建MetricStore，完成机器组配置

创建MetricStore

选择需要监控的机器，安装Logtail采集插件

等待插件安装完成

针对配置的机器，将完成采集的机器组

设置针对机器指标的采集配置

SLS的主机监控方案非常简单，只需要安装一个Logtail就可以采集各个主机的基础指标，服务端都是云化，无需运维，默认SLS提供了可视化的仪表盘，也可以通过Grafana来进行更加专业的可视化。

目前Logtail采集了主机常用的基础指标，包括CPU、内存、网络、磁盘等，其中对较为关键的指标都做了可视化，便于直接查看。通过对采集配置中（插件配置）的模式下，使用如下配置，可以完成上述指标的采集。

{"inputs":[{"detail":{"IntervalMs":30000},"type":"metric_system_v2"}]}

在接入的过程中，有个辅助的开关【开启指标巡检】，如果选择了开启，则会同时创建对应的【巡检任务】和存放巡检结果的LogStore。我们通过如下操作，可以查看对应的资源情况。

结果分析

基础数据分析

*|selectDISTINCT __name__ from"machine_metric_logtail.prom"where __name__ !=''limit10000

在MetricStore中，使用如上的分析语句，可以查看我们一共采集了多少指标，以及对应的指标内容。

智能巡检结果可视化

如何使用巡检大盘

用户可以在【巡检大盘】中选择【异常列表】中对应【hostname】这一列，选择从机器维度出发，去查看对应的异常情况
在【异常显示】部分，每个异常都会标注在指标的曲线中，您可通过鼠标拖拽选择时间区间，点击异常点查看异常详情并跳转到详细的监控页面

用户可以在【仪表盘】中，找到对应的【巡检仪表盘】，可以通过手动拖拽的形式选中对应的区间，可以完成多个图表联动的可视化，更加便于您查看单个机器的状态是否正常。

参考文档

采集主机监控数据 https://help.aliyun.com/document_detail/171717.html?spm=a2c4g.11186623.6.980.7c2515c0cE8Riu
AIOps 自适应机器学习异常检测 https://zhuanlan.zhihu.com/p/377837205
智能巡检概述 https://help.aliyun.com/document_detail/253411.html
查看巡检结果 https://help.aliyun.com/document_detail/275370.html
打标反馈 https://help.aliyun.com/document_detail/275225.html

一分钟完成ECS机器数据的智能巡检告警

系列文章

设置步骤

创建MetricStore，完成机器组配置

设置针对机器指标的采集配置

结果分析

基础数据分析

智能巡检结果可视化

如何使用巡检大盘

参考文档

技术博文

热门文章

最新文章

相关课程

相关电子书

相关实验场景