SLS机器学习服务最佳实践:ECS时序指标监控巡检-阿里云开发者社区

开发者社区> 笃林> 正文

SLS机器学习服务最佳实践:ECS时序指标监控巡检

简介: 云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。
+关注继续查看

背景

云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。

指标说明

对于云服务器的稳定性,有如下黄金指标值得我们关注:

类型 指标 说明 单位
CPU相关指标 cpu_util CPU使用率,计算方式为排除idle、wait、steal后的占比 百分号(%)
内存相关指标 mem_util 内存使用率 百分号(%)
磁盘相关指标 disk_util IO使用率 百分号(%)
网络相关指标 net_err_util 报错数据包占总数据包的比值 百分号(%)
系统相关指标 system_load1 系统平均负载,1分钟平均值 不涉及

有关云服务器的更多指标(总计46个),可以关注SLS官方文档:《采集主机监控数据》


使用流程

数据接入

进入SLS控制台,选择接入数据中的主机监控,可以进入如下界面:
截屏2020-10-21 下午12.04.57.png
以呼和浩特集群为例,在选择了目标ProjectMetricStore之后,您可以选择要监控的ECS机器,组合成机器组:


image.png
image.png
image.png
这里选择的机器组要安装配置Logtail:
image.png
Logtail安装成功,心跳正常后,就可以开始采集主机的监控数据啦。您只需要配置如下规则即可采集到对ECS的各项监控指标数据。有关配置参考官方文档《采集主机监控数据》
image.png
点击左下角的开启指标巡检,SLS的机器学习服务将为您实时自动分析监控指标时序数据。智能巡检服务通过机器学习,神经网络等AI算法,以流式的方式不断学习历史数据,对当前的指标状态进行异常分析。有关算法详情请见《SLS机器学习服务简介》


至此,我们已经完成了ECS主机监控以及时序指标巡检的全部配置。完成配置后,您的目标project下将被创建如下工程:
任务大图.png
其中,主机监控主机监控-ML 分别是指标数据可视化与异常检测结果可视化两个大盘,您可以在上面看到您所监控的ECS指标整体情况与健康度情况。


巡检结果可视与分析

主机监控-ML

截屏2020-10-21 下午2.14.33.png
截屏2020-10-21 下午2.09.05.png
上面两图展示了异常巡检结果的大盘。从图中,我们可以对所监控的机器进行智能化的分析。SLS机器学习服务会为您自动学习历史数据,判断当前指标的异常与否,将结果汇总于大盘。您可以通过通过大盘看到整体汇总的异常信息,以及单指标上的异常位置(三角形符号标识)。点击异常点进入,可以看到该机器整体指标的变化情况。

主机监控

截屏2020-10-21 下午2.19.59.png
在主机监控大盘中,您可以看到该机器更加详细的指标变化情况。您可以通过观察指标的变化来判断当前ECS的健康状态,设置相应的告警,辅助您的运维或运营工作。

日志进阶


阿里云SLS(原日志服务)针对日志与指标监控提供了完整的解决方案,以下相关功能是日志进阶的必备良药:

  1. 机器学习服务:https://help.aliyun.com/document_detail/172129.html
  2. 机器学习语法与函数: https://help.aliyun.com/document_detail/93024.html
  3. 时序存储:https://help.aliyun.com/document_detail/171723.html
  4. 日志上下文查询:https://help.aliyun.com/document_detail/48148.html
  5. 快速查询:https://help.aliyun.com/document_detail/88985.html
  6. 实时分析:https://help.aliyun.com/document_detail/53608.html
  7. 快速分析:https://help.aliyun.com/document_detail/66275.html
  8. 基于日志设置告警:https://help.aliyun.com/document_detail/48162.html
  9. 配置大盘:https://help.aliyun.com/document_detail/69313.html


更多日志进阶内容可以参考:日志服务学习路径


联系我们


纠错或者帮助文档以及最佳实践贡献,请联系:笃林
问题咨询请加钉钉群:
image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
冬季训练营-从0到1玩转云服务器学习报告记录
从0到1玩转云服务器学习报告记录,搭建云上博客全过程
12 0
第一期学习报告(Yasso_c)
第一期学习报告(Yasso_c)
16 0
教育培训机构使用阿里云无影桌面优缺点
配置灵活,GPU满足设计产品线,价格低廉,随开随用。
8 0
Caffeine缓存 最快缓存 内存缓存
Caffeine是一个进程内部缓存框架 最快缓存 内存缓存
10 0
ACP实战特训营RDS(DAY3)
要点记录 1. PolarDB的基本概念 1.1、对比单机数据库优势有哪些:简单易用、极致性能、降低成本、海量存储、安全可靠、快速弹性 1.2 、单机数据库容量瓶颈-单机数据库扩展困难-数据库使用成本过高-分布式数据库应用开发繁琐 2. PolarDB产品系列:集群版-单节点-历史库-多主架构 2.1、集群:一个集群包含一个主节点和多个读节点,最多16个节点,即一个主节点和15个只读节点 2.2、地域:是指物理的数据中心,一般情况下,PolarDB集群应该和ECS实例位于同一地域,以实现最高的访问性能
5 0
python中对切片的理解
字符串还支持 切片。索引可以提取单个字符,切片 则提取子字符串: >>>
6 0
学习报告 冬季实战营第一期:从零到一上手玩转云服务器
冬季实战营第一期:从零到一上手玩转云服务器-本期学习报告
6 0
云起第一期学习体会(报告)
云起第一期学习体会(报告)
13 0
产业白热化竞争来临,看人工智能如何带动经济数智化发展
人工智能的发展主要围绕着语言、数学和逻辑推理能力的进步。未来,人工智能的将围绕提升预测准确性和情商能力而发展,为行业数智化转型带来层层浪潮。
11 0
+关注
5
文章
0
问答
来源圈子
更多
阿里云存储基于飞天盘古2.0分布式存储系统,产品包括对象存储OSS、块存储Block Storage、共享文件存储NAS、表格存储、日志存储与分析、归档存储及混合云存储等,充分满足用户数据存储和迁移上云需求,连续三年跻身全球云存储魔力象限四强。
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载