云监控之运维篇

简介: 正所谓“凡事预则立,不预则废.”,那么,当服务器上线后,我们如何预先知道服务器目前的健康状态,及时的去排除故障点呢? 此外,随着公司业务的增长,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地去提升服务器的硬件性能,为企业优化信息平台的投入成本呢? 云监控--你的好帮手。

一、服务器的日常监控

1.1 遇到的潜在问题

随着公司的发展,公司的业务量不断的增加,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地提升硬件性能,为企业优化信息平台的投入成本呢?

1.2 云监控如何解决

1.2.1 总体思路:

首先,需要安装云监控的插件;然后,对服务器的CPU、内存、磁盘、带宽等指标进行监控;最后,通过设置阈值告警。

当服务器的某项指标达到性能瓶颈时,会自动触发告警,并及时的通知到运维人员进行处理。实现日常运维里面的自动化告警。

1.2.2 详细步骤如下:

安装云监控插件


ec5af85ebf69032a5faec235976948e1be8fb2c6


18e7249a6e2685798dce2bd1165aede031f4c11d


自定义报警规则


fe7bc08933fcf6595305af553704a4f4c9d9b27d


6263f3ff5eb958b0fef37a6d6462a3375eb8a80c

df7ba60b0bc86d3be5a99c116bd23a6a3c3138d5e467505724c6667346c70ef1b25a2e0406bb11db


fbcfc87be37fcd7e446a6fe85bd7641a9743b49a


38975b809074605882c3d7d360e0b26be2d9d860

优化告警联系人设置



301e8c1d5f2df019cb65e3b01df49e61dc6a61f07d2b5056468e53f56e2694b89ee852596b4483c9


24d4836909513c03162becda1bd386c7fd7382c7

1.2.2  测试验证:

我们可以通过反向设置告警规则来触发告警,验证云监控是否可以正常告警。例如,将CPU的阈值设置成小于80%时触发告警等。由于操作比较简单,这里就不再赘述。

至此,我们便可以及时地发现服务器的性能瓶颈与异常状态。

二、服务可用性监控

2.1遇到的问题

当我们发现网站无法被访问时,其中可能存在的故障点有:

1.   服务器中的相关服务异常

2.   服务器到客户端的运营商网络异常。

接到报障信息后,我们需要一个个故障点去排查。一方面,我们需要检查服务器的监听端口和相关配置文件是否正常;另一方面,我们呢还需要去排查client—server这一段运营商网络是否存在异常等问题。我们才能定位到网站访问异常的故障点。步骤繁琐,效率底,不能快速定位问题。

2.2 云监控如何解决

2.2.1 总体思路:

使用云监控分别从内网和外网对服务的可用性进行监控,由于使用云监控进行内网进行监控时,跳开运营商网络异常这个故障点。所以我们指需要综合内外网的警情况,就可以快速定位到故障发生的位置。

2.2.2 实现步骤如下

1. 建立外网监控

fa3515eb3f9a153a9bf5e22c3e18fe2de3137fae


73c992d2f15fbf0f0f241ba08f6fbf95836270a1

a90a8f8153d51836115f8ee49cd5f7798eb19032


域名仅做举例,不要雷同哦


5b2f17a1cc0be5b4f14b6f06fcbe3347fecb6b6e

33b29240af7d2c6b94b98821df7fed5a5b75b667

e52997cbf33306922f78018a9539d30f1c6ade8a

2. 建立内网监控

8f4e1708fe7f047cbd1c89d62c4eaef0ab1e74b4


9e40f55dbba362dc47cc12795ed525a23075d3b3


582cd9a4932cdc5335b4eb36f7f523c6d8c7aaf4

981719dc93e2975ac3e457b1ed649124841b6931

3f77e6acc542713c277e8adb61d4a52da2e29eee

410a48a80a959264b00e075a8f7e2fde16c9da951d9a21e8abc2cd09bde933c4e4931f72fe116be4



注意:探测源和目标主机同需属于一个安全组。

3. 测试验证

更改安全组策略模拟运营商网络异常。

 在安全组中新增一条优先级更高的拒绝外网访问目标主机80端口的安全策略。

(这里仅做模拟测试,请勿在生产环境操作)

可以收到如下告警信息:

976f748ab0a8060b73cf9eb2fe199d24b8327309


20c76c0650467c4326f73ef20df20300ce0c34c3

与此同时,内网监控是正常的:

e7bbb23738e472af6508f21d228774ddd746c29d

小结:

如果我们只收到外网的监控告警信息,但是没有收到内网的告警信息,则说明故障点是在外网的网络运营商。针对运营商问题,可以在云监控上进一步查看受影响的区域。

II 将服务器关机模拟服务本身异常

收到如下告警信息

b7d2516c838ec185e237c402dc330062d52fb667

 

小结:

当我们收到内网的告警信息时,往往还会伴还会随着外网的告警信息。这就说明服务器的相关服务异常,这就需要我们登陆到服务器上进一步排查造成服务异常的原因。

 

综上所述,当我们只收到外网的监控告警信息时,说明故障来自外网。当我们同时收到内外网的告警信息时,则说明故障点来自服务器,需要到服务器上排查。


目录
相关文章
|
运维 监控 专有云
TAC报警中心: 专有云告警生命周期一站式管理运维平台
TAC报警中心是阿里云SRE混合云团队为专有云精心打造的一站式告警运维平台,覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题,协助产品团队进行产品优化。
TAC报警中心: 专有云告警生命周期一站式管理运维平台
|
运维 监控 数据可视化
从告警到巡检,YashanDB Cloud Manager 帮我省下一半运维时间
数据库运维常依赖人工操作,易引发业务问题。YashanDB Cloud Manager(YCM)改变这一现状:可视化实例管理、全栈资源监控、智能巡检、灵活告警、高可用保障、权限审计体系,助企业降低故障影响、提升DBA效率、强化安全合规、标准化运维流程。若你被数据库运维困扰,可尝试此国产平台。
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合,前者是开源的系统监控和警报工具,后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性,而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板,广泛应用于服务器、应用和数据库的监控。
1651 3
|
数据采集 运维 监控
数据采集监控与告警:错误重试、日志分析与自动化运维
本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失,而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性,反方则担忧复杂化带来的成本与安全风险。未来,结合AI与大数据技术,数据采集将向智能化、全自动方向发展,实现动态调整与智能识别反爬策略,降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。
626 7
数据采集监控与告警:错误重试、日志分析与自动化运维
|
运维 监控 前端开发
Zabbix告警分析新革命:DeepSeek四大创新场景助力智能运维
面对日益复杂的IT环境,高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用,包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本,展示了如何提升故障排查效率,为运维工程师提供高效解决方案。
1425 5
|
运维 Prometheus 监控
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】
WatchAlert 是一个开源的多数据源告警引擎,支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据,并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性,帮助团队更高效地监控和响应问题。项目地址:https://github.com/opsre/WatchAlert
2029 18
🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
1402 0
|
运维 Prometheus 监控
告警运维中心|构建高效精准的告警协同处理体系
基于报告,ARMS 能快速的整合上下文,包括 Prometheus 监控进行监控。还有前端监控的相关数据,都会整合到报告里面,进行全方位检测来收敛相关问题。
告警运维中心|构建高效精准的告警协同处理体系
|
运维 监控 安全
多监控系统产生的告警如何高效管理-运维事件中心
阿里云运维事件中心作为数字化运营企业业务连续性的一站式运维管理平台,提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能,帮助企业完成数字化管理。
1097 0
多监控系统产生的告警如何高效管理-运维事件中心
|
运维 监控 算法
如何建立高效告警体系提升日常运维效|学习笔记
快速学习如何建立高效告警体系提升日常运维效。
如何建立高效告警体系提升日常运维效|学习笔记

热门文章

最新文章