SLS机器学习服务最佳实践:ECS时序指标监控巡检

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。

背景

云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。

指标说明

对于云服务器的稳定性,有如下黄金指标值得我们关注:

类型 指标 说明 单位
CPU相关指标 cpu_util CPU使用率,计算方式为排除idle、wait、steal后的占比 百分号(%)
内存相关指标 mem_util 内存使用率 百分号(%)
磁盘相关指标 disk_util IO使用率 百分号(%)
网络相关指标 net_err_util 报错数据包占总数据包的比值 百分号(%)
系统相关指标 system_load1 系统平均负载,1分钟平均值 不涉及

有关云服务器的更多指标(总计46个),可以关注SLS官方文档:《采集主机监控数据》


使用流程

数据接入

进入SLS控制台,选择接入数据中的主机监控,可以进入如下界面:
截屏2020-10-21 下午12.04.57.png
以呼和浩特集群为例,在选择了目标ProjectMetricStore之后,您可以选择要监控的ECS机器,组合成机器组:


image.png
image.png
image.png
这里选择的机器组要安装配置Logtail:
image.png
Logtail安装成功,心跳正常后,就可以开始采集主机的监控数据啦。您只需要配置如下规则即可采集到对ECS的各项监控指标数据。有关配置参考官方文档《采集主机监控数据》
image.png
点击左下角的开启指标巡检,SLS的机器学习服务将为您实时自动分析监控指标时序数据。智能巡检服务通过机器学习,神经网络等AI算法,以流式的方式不断学习历史数据,对当前的指标状态进行异常分析。有关算法详情请见《SLS机器学习服务简介》


至此,我们已经完成了ECS主机监控以及时序指标巡检的全部配置。完成配置后,您的目标project下将被创建如下工程:
任务大图.png
其中,主机监控主机监控-ML 分别是指标数据可视化与异常检测结果可视化两个大盘,您可以在上面看到您所监控的ECS指标整体情况与健康度情况。


巡检结果可视与分析

主机监控-ML

截屏2020-10-21 下午2.14.33.png
截屏2020-10-21 下午2.09.05.png
上面两图展示了异常巡检结果的大盘。从图中,我们可以对所监控的机器进行智能化的分析。SLS机器学习服务会为您自动学习历史数据,判断当前指标的异常与否,将结果汇总于大盘。您可以通过通过大盘看到整体汇总的异常信息,以及单指标上的异常位置(三角形符号标识)。点击异常点进入,可以看到该机器整体指标的变化情况。

主机监控

截屏2020-10-21 下午2.19.59.png
在主机监控大盘中,您可以看到该机器更加详细的指标变化情况。您可以通过观察指标的变化来判断当前ECS的健康状态,设置相应的告警,辅助您的运维或运营工作。

日志进阶


阿里云SLS(原日志服务)针对日志与指标监控提供了完整的解决方案,以下相关功能是日志进阶的必备良药:

  1. 机器学习服务:https://help.aliyun.com/document_detail/172129.html
  2. 机器学习语法与函数: https://help.aliyun.com/document_detail/93024.html
  3. 时序存储:https://help.aliyun.com/document_detail/171723.html
  4. 日志上下文查询:https://help.aliyun.com/document_detail/48148.html
  5. 快速查询:https://help.aliyun.com/document_detail/88985.html
  6. 实时分析:https://help.aliyun.com/document_detail/53608.html
  7. 快速分析:https://help.aliyun.com/document_detail/66275.html
  8. 基于日志设置告警:https://help.aliyun.com/document_detail/48162.html
  9. 配置大盘:https://help.aliyun.com/document_detail/69313.html


更多日志进阶内容可以参考:日志服务学习路径


联系我们


纠错或者帮助文档以及最佳实践贡献,请联系:笃林
问题咨询请加钉钉群:
image.png

相关实践学习
一小时快速掌握 SQL 语法
本实验带您学习SQL的基础语法,快速入门SQL。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
2天前
|
机器学习/深度学习 数据采集
构建高效机器学习模型的最佳实践
【5月更文挑战第11天】 在数据驱动的时代背景下,机器学习已经成为企业与研究者解决复杂问题的重要工具。本文将探讨构建高效机器学习模型的关键步骤,包括数据预处理、特征工程、模型选择与调参、以及性能评估。我们将深入分析这些步骤的重要性,并提供实用的技巧和最佳实践,以助读者提高模型的预测能力与泛化性能。通过案例分析和经验总结,本文旨在为从业者提供一套系统的方法论,帮助他们在面对各种机器学习项目时能够更有效地设计和实现解决方案。
4 0
|
3天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的最佳实践
【5月更文挑战第10天】 在面对海量数据和复杂问题时,构建一个既高效又准确的机器学习模型显得至关重要。本文将探讨一系列实用的技术和策略,旨在帮助数据科学家和工程师优化他们的机器学习工作流程。从数据预处理到模型训练,再到最终的评估与部署,我们将深入讨论如何通过最佳实践提升模型性能,同时确保过程的可复现性和可扩展性。
|
7天前
|
Web App开发 安全 Unix
Linux 配置FTP服务器 + vsftpd服务安装配置 (Good篇)
Linux 配置FTP服务器 + vsftpd服务安装配置 (Good篇)
|
9天前
|
存储 监控 安全
如何利用服务器为个人和企业提供定制服务?
【5月更文挑战第4天】如何利用服务器为个人和企业提供定制服务?
25 11
|
11天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的最佳实践
【5月更文挑战第2天】 在数据驱动的时代,机器学习已成为智能系统不可或缺的组成部分。本文将深入探讨构建高效机器学习模型的策略,包括数据预处理、特征工程、模型选择、调参技巧以及模型评估方法。我们将通过实际案例分析,揭示如何避免常见陷阱,并利用最佳实践提高模型的性能和泛化能力。文章旨在为从业者提供一套实用的技术指南,帮助他们在面对复杂数据时能够做出明智的决策,并最终实现机器学习项目的高效落地。
|
12天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】Python中的机器学习评估与度量指标
【4月更文挑战第30天】本文介绍了Python中机器学习模型的评估方法和度量指标。主要包括留出法、交叉验证和自助法等评估方法,以及准确率、精确率、召回率、F1分数、AUC-ROC曲线、MSE、RMSE和R方值等度量指标。选择合适的评估标准对于理解模型性能和适应不同任务至关重要。
|
13天前
|
机器学习/深度学习 自然语言处理 监控
构建高效机器学习模型的最佳实践
【4月更文挑战第30天】 在数据驱动的时代,机器学习已成为智能系统的核心。本文将深入探讨如何构建高效的机器学习模型,涵盖从数据处理到模型优化的全过程。我们将分析特征工程的重要性,讨论不同算法的优势与局限,并提出一系列实用的调参技巧。通过这些最佳实践,读者将能够提升其机器学习项目的性能与准确性。
|
13天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的最佳实践
【4月更文挑战第30天】 在数据驱动的时代,构建高效且可靠的机器学习模型已成为技术发展的核心。本文旨在探讨并总结一系列实用的技术和策略,帮助读者优化其机器学习项目。从数据预处理到模型训练,再到最终的评估和部署,我们将深入分析每个步骤中应当考虑的关键因素。通过实例演示和理论分析,文章不仅为初学者提供了清晰的入门指南,也为经验丰富的开发者提供了一系列高级技巧。
|
13天前
|
机器学习/深度学习 数据采集 人工智能
构建高效机器学习模型的最佳实践
【4月更文挑战第30天】 在数据驱动的时代,机器学习已成为解决复杂问题的重要工具。然而,构建一个既高效又准确的机器学习模型并非易事。本文将分享一系列经过实践检验的技巧与策略,涵盖数据预处理、特征工程、模型选择、调参优化及模型部署等关键环节。读者将了解到如何通过这些最佳实践提升模型性能,避免常见的陷阱,并最终实现高效的机器学习工作流程。
|
13天前
|
机器学习/深度学习 数据采集 自然语言处理
构建高效机器学习模型的最佳实践
【4月更文挑战第30天】 在本文中,我们将探讨一系列经过验证的策略和最佳实践,用以提升机器学习模型的性能和效率。这些建议涵盖了数据处理、模型选择、参数调优、以及结果验证等关键环节。通过遵循这些指南,读者将能够构建出更加精确且可靠的机器学习系统。

相关产品

  • 日志服务