云服务器 ECS 监控:使用云监控监控ECS实例

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
网络型负载均衡 NLB,每月750个小时 15LCU
传统型负载均衡 CLB,每月750个小时 15LCU
简介:


使用云监控监控ECS实例


本文以某门户网站的监控设置为例,讲解云监控服务如何给业务系统做实时护航。

主要内容

  • 监控的必要性
  • 云监控配置

监控的必要性

越来越多的用户选择将业务部署在云上,大大减轻了运维成本和压力,其中合理的监控设置功不可没,设置合理的监控不仅可以让用户实时了解系统业务的运行情况,还能帮助用户提前发现问题,避免可能会出现的业务故障;同时有效的告警机制能让用户在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快地恢复业务。

云监控配置

此网站架构如下图所示,其中使用到了阿里云产品ECS,RDS,OSS及负载均衡SLB,下面针对此种类型的架构,说明云监控的配置使用。


image

在开始设置监控前,需要检查ECS监控插件运行情况,确保监控信息能够正常采集,如安装失败需要手动安装,请参考云监控插件安装指南。此外,还需要提前添加报警联系人和联系组,建议设置至少2人以上的联系人,互为主备,以便及时响应监控告警。监控选项的设定,具体可参见云服务资源使用概览和报警概览。利用云监控的Dashboard功能,给您业务系统的云资源设置一个全局监控总览,可随时检查整个业务系统资源的健康状态。下图根据ECS分组选择添加监控的资源,依次添加内存使用率,CPU使用率等监控项。监控的实例数较少可以选择实例维度作为展示,如有多实例建议以分组或者用户为维度展示;监控数据取平均值。


image


为了更好的监控大屏展示效果,这里将ECS的CPU、内存、磁盘的使用率单独分组展示;将RDS的四项指标分两组展示。


image


报警阈值

关于各项监控指标的报警阈值说明,建议根据实际业务情况斟酌设置,不要设置太低以免频繁触发报警影响监控服务体验,也不要设置太高以免触发阈值后没有足够的预留时间来响应和处理告警。

报警规则

以CPU使用率为例,由于需要给服务器预留部分处理性能保障服务器正常运行,所以建议将cpu告警阈值设置为70%,连续三次超过阈值后开始报警。如下图所示点击添加报警规则继续设置内存和磁盘的报警规则和报警通知人即可。


image


进程监控

对于常见的web应用,设置进程监控,不仅可以实时监控应用进程的运行情况,还有助于故障的排查处理,下图是java进程的相关监控示例。


image

站点监控

在云服务器外层的监控服务,站点监控主要用于模拟真实用户访问情况,实时测试业务可用性,有助于的故障排查处理。


image


RDS监控

建议将RDS的CPU使用率告警阈值设置为70%,连续三次超过阈值后开始报警。硬盘使用率,最大IOPS使用率,连接数等其他监控项可根据您的实际情况来设置。


image


负载均衡监控

为了更好使用负载均衡的云监控服务,需要先开启负载均衡SLB的健康检查,详情参见健康检查机制和配置说明建议设置负载均衡SLB带宽值的70%作为告警阈值,如下图所示。


image

如以上监控选项不能满足您的实际业务监控需求,可以参见[创建自定义监控项和报警规则]

原文链接

目录
相关文章
|
4月前
|
运维 监控 网络协议
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
117 11
物联网设备状态监控全解析:从告警参数到静默管理的深度指南-优雅草卓伊凡
|
6月前
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
271 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
10月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
882 3
|
6月前
|
Prometheus Kubernetes 监控
Kubernetes监控:Prometheus与AlertManager结合,配置邮件告警。
完成这些步骤之后,您就拥有了一个可以用邮件通知你的Kubernetes监控解决方案了。当然,所有的这些配置都需要相互照应,还要对你的Kubernetes集群状况有深入的了解。希望这份指南能帮助你创建出适合自己场景的监控系统,让你在首次发现问题时就能做出响应。
251 22
|
6月前
|
数据库
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
|
6月前
|
数据库
【YashanDB知识库】服务器重启后启动yasom和yasagent进程时有告警
本文介绍了YashanDB在特定场景下的问题分析与解决方法。当使用yasboot重启数据库后,yasom和yasagent进程虽启动成功但出现告警,原因是缺少libnsl.so.1库文件或环境变量配置错误。解决步骤包括:检查系统中是否存在该库文件,若不存在则根据操作系统类型安装(有外网时通过yum或apt,无外网时创建符号链接),若存在则调整环境变量配置,并重新启动相关进程验证问题是否解决。
|
9月前
|
Prometheus 监控 Cloud Native
无痛入门Prometheus:一个强大的开源监控和告警系统,如何快速安装和使用?
Prometheus 是一个完全开源的系统监控和告警工具包,受 Google 内部 BorgMon 系统启发,自2012年由前 Google 工程师在 SoundCloud 开发以来,已被众多公司采用。它拥有活跃的开发者和用户社区,现为独立开源项目,并于2016年加入云原生计算基金会(CNCF)。Prometheus 的主要特点包括多维数据模型、灵活的查询语言 PromQL、不依赖分布式存储、通过 HTTP 拉取时间序列数据等。其架构简单且功能强大,支持多种图形和仪表盘展示模式。安装和使用 Prometheus 非常简便,可以通过 Docker 快速部署,并与 Grafana 等可
3814 2
|
10月前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
895 0
|
12月前
|
存储 监控 Linux
监控Linux服务器
详细介绍了如何监控Linux服务器,包括监控CPU、内存、磁盘存储和带宽的使用情况,以及使用各种系统监控工具如vmstat、iostat、sar、top和dstat来分析系统性能,并推荐了一些开源监控系统。
234 0
监控Linux服务器

热门文章

最新文章