SLS机器学习服务最佳实践:ECS时序指标监控巡检

简介: 云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。

背景

云服务器ECS是阿里云所提供的性能卓越、稳定可靠、可弹性扩展的IaaS级别云计算服务。使用云服务器ECS可以不用采购IT硬件设备,直接像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。众多业务或服务在ECS上面运行,机器的稳定性对维持服务的稳定性来说尤为关键。本期将为大家介绍利用阿里云SLS(原日志服务),采集ECS的CPU、内存、负载、磁盘、网络等监控数据,并进行智能巡检与异常检测,形成对ECS主机的健康监控大盘,帮助你更好的管理并维护自己的云服务器。

指标说明

对于云服务器的稳定性,有如下黄金指标值得我们关注:

类型 指标 说明 单位
CPU相关指标 cpu_util CPU使用率,计算方式为排除idle、wait、steal后的占比 百分号(%)
内存相关指标 mem_util 内存使用率 百分号(%)
磁盘相关指标 disk_util IO使用率 百分号(%)
网络相关指标 net_err_util 报错数据包占总数据包的比值 百分号(%)
系统相关指标 system_load1 系统平均负载,1分钟平均值 不涉及

有关云服务器的更多指标(总计46个),可以关注SLS官方文档:《采集主机监控数据》


使用流程

数据接入

进入SLS控制台,选择接入数据中的主机监控,可以进入如下界面:
截屏2020-10-21 下午12.04.57.png
以呼和浩特集群为例,在选择了目标ProjectMetricStore之后,您可以选择要监控的ECS机器,组合成机器组:


image.png
image.png
image.png
这里选择的机器组要安装配置Logtail:
image.png
Logtail安装成功,心跳正常后,就可以开始采集主机的监控数据啦。您只需要配置如下规则即可采集到对ECS的各项监控指标数据。有关配置参考官方文档《采集主机监控数据》
image.png
点击左下角的开启指标巡检,SLS的机器学习服务将为您实时自动分析监控指标时序数据。智能巡检服务通过机器学习,神经网络等AI算法,以流式的方式不断学习历史数据,对当前的指标状态进行异常分析。


至此,我们已经完成了ECS主机监控以及时序指标巡检的全部配置。完成配置后,您的目标project下将被创建如下工程:
任务大图.png
其中,主机监控主机监控-ML 分别是指标数据可视化与异常检测结果可视化两个大盘,您可以在上面看到您所监控的ECS指标整体情况与健康度情况。


巡检结果可视与分析

主机监控-ML

截屏2020-10-21 下午2.14.33.png
截屏2020-10-21 下午2.09.05.png
上面两图展示了异常巡检结果的大盘。从图中,我们可以对所监控的机器进行智能化的分析。SLS机器学习服务会为您自动学习历史数据,判断当前指标的异常与否,将结果汇总于大盘。您可以通过通过大盘看到整体汇总的异常信息,以及单指标上的异常位置(三角形符号标识)。点击异常点进入,可以看到该机器整体指标的变化情况。

主机监控

截屏2020-10-21 下午2.19.59.png
在主机监控大盘中,您可以看到该机器更加详细的指标变化情况。您可以通过观察指标的变化来判断当前ECS的健康状态,设置相应的告警,辅助您的运维或运营工作。

日志进阶


阿里云SLS(原日志服务)针对日志与指标监控提供了完整的解决方案,以下相关功能是日志进阶的必备良药:

  1. 机器学习语法与函数: https://help.aliyun.com/document_detail/93024.html
  2. 时序存储:https://help.aliyun.com/document_detail/171723.html
  3. 日志上下文查询:https://help.aliyun.com/document_detail/48148.html
  4. 快速查询:https://help.aliyun.com/document_detail/88985.html
  5. 实时分析:https://help.aliyun.com/document_detail/53608.html
  6. 快速分析:https://help.aliyun.com/document_detail/66275.html
  7. 基于日志设置告警:https://help.aliyun.com/document_detail/48162.html
  8. 配置大盘:https://help.aliyun.com/document_detail/69313.html


更多日志进阶内容可以参考:日志服务学习路径


联系我们


纠错或者帮助文档以及最佳实践贡献,请联系:笃林
问题咨询请加钉钉群:
image.png

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
目录
相关文章
|
8月前
|
存储 弹性计算 安全
阿里云服务器ECS实例选购参考:vCPU到云盘IOPS等指标详解
阿里云服务器ECS实例可以分为多种实例规格族,而根据CPU、内存等配置的不同,一种实例规格族又进一步细分为多种实例规格。这些实例规格包含了众多关键的性能指标,如 vCPU、处理器、内存、vTPM、本地存储、网络带宽、网络收发包 PPS、连接数、弹性网卡、云盘带宽、云盘 IOPS 等。深入理解这些性能指标,对于用户在阿里云服务器购买过程中选择最适合自己业务需求的实例规格至关重要。
|
3月前
|
域名解析 运维 监控
如何检测服务器是否被入侵?解析5大异常指标
本文系统介绍了服务器入侵的五大检测维度:硬件资源、网络流量、系统日志、文件完整性及综合防护。涵盖CPU、内存异常,可疑外联与隐蔽通信,登录行为审计,关键文件篡改识别等内容,并提供实用工具与防护建议,助力运维人员快速发现潜在威胁,提升系统安全防御能力。转载链接:https://www.ffy.com/latest-news/1916688607247077376
339 0
如何检测服务器是否被入侵?解析5大异常指标
|
4月前
|
Prometheus 监控 Java
日志收集和Spring 微服务监控的最佳实践
在微服务架构中,日志记录与监控对系统稳定性、问题排查和性能优化至关重要。本文介绍了在 Spring 微服务中实现高效日志记录与监控的最佳实践,涵盖日志级别选择、结构化日志、集中记录、服务ID跟踪、上下文信息添加、日志轮转,以及使用 Spring Boot Actuator、Micrometer、Prometheus、Grafana、ELK 堆栈等工具进行监控与可视化。通过这些方法,可提升系统的可观测性与运维效率。
493 1
日志收集和Spring 微服务监控的最佳实践
|
4月前
|
负载均衡 监控 安全
5 个 IIS 日志记录最佳实践
IIS日志记录是监控Web服务器性能与安全的关键。本文介绍启用日志、应用池配置、负载均衡、敏感数据防护、日志集中管理及保留策略等五大最佳实践,助力高效分析与合规审计。
332 1
|
8月前
|
监控 容灾 算法
阿里云 SLS 多云日志接入最佳实践:链路、成本与高可用性优化
本文探讨了如何高效、经济且可靠地将海外应用与基础设施日志统一采集至阿里云日志服务(SLS),解决全球化业务扩展中的关键挑战。重点介绍了高性能日志采集Agent(iLogtail/LoongCollector)在海外场景的应用,推荐使用LoongCollector以获得更优的稳定性和网络容错能力。同时分析了多种网络接入方案,包括公网直连、全球加速优化、阿里云内网及专线/CEN/VPN接入等,并提供了成本优化策略和多目标发送配置指导,帮助企业构建稳定、低成本、高可用的全球日志系统。
920 54
|
7月前
|
缓存 安全 网络协议
如何使用Bluetown Cloud服务器及其CDN服务来掩护VPS的真实IP地址。
最终,通过Bluetown Cloud的CDN服务,你的VPS不仅仅是隐藏在一层又一层的保护之下,同时也因为CDN的全球节点而享受到加速访问的优势,无所不在又不被发现,像是一位能在互联网世界中自由穿梭的幽灵特工。
159 14
|
7月前
|
应用服务中间件 网络安全 数据安全/隐私保护
网关服务器配置指南:实现自动DHCP地址分配、HTTP服务和SSH无密码登录。
哇哈哈,道具都准备好了,咱们的魔术秀就要开始了。现在,你的网关服务器已经魔法满满,自动分配IP,提供网页服务,SSH登录如入无人之境。而整个世界,只会知道效果,不会知道是你在幕后操控一切。这就是真正的数字世界魔法师,随手拈来,手到擒来。
390 14
|
7月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!
|
7月前
|
物联网
云服务器搭建rttys服务
RTTYS是一款基于Web的串口调试工具,分为服务端(rttys)和客户端(rtty)。服务端负责连接串口设备并提供接口,客户端通过浏览器访问实现远程串口调试。它具有跨平台、易部署的特点,适用于物联网、嵌入式开发等场景,极大提升调试效率。
|
7月前
|
缓存 人工智能 负载均衡
PAI 重磅发布模型权重服务,大幅降低模型推理冷启动与扩容时长
阿里云人工智能平台PAI 平台推出模型权重服务,通过分布式缓存架构、RDMA高速传输、智能分片等技术,显著提升大语言模型部署效率,解决模型加载耗时过长的业界难题。实测显示,Qwen3-32B冷启动时间从953秒降至82秒(降幅91.4%),扩容时间缩短98.2%。

相关产品

  • 日志服务