文档备案控制台

开发者社区阿里云MVP 文章正文

云监控之运维篇

2018-04-13 2684

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 正所谓“凡事预则立,不预则废.”，那么，当服务器上线后，我们如何预先知道服务器目前的健康状态，及时的去排除故障点呢？此外，随着公司业务的增长，网站的访问量越来越大，如何快速定位到系统的性能瓶颈，有针对性地去提升服务器的硬件性能，为企业优化信息平台的投入成本呢？云监控--你的好帮手。

一、服务器的日常监控

1.1 遇到的潜在问题

随着公司的发展，公司的业务量不断的增加，网站的访问量越来越大，如何快速定位到系统的性能瓶颈，有针对性地提升硬件性能，为企业优化信息平台的投入成本呢？

1.2 云监控如何解决

1.2.1 总体思路：

首先，需要安装云监控的插件；然后，对服务器的CPU、内存、磁盘、带宽等指标进行监控；最后，通过设置阈值告警。

当服务器的某项指标达到性能瓶颈时，会自动触发告警，并及时的通知到运维人员进行处理。实现日常运维里面的自动化告警。

1.2.2 详细步骤如下：

安装云监控插件

ec5af85ebf69032a5faec235976948e1be8fb2c6

18e7249a6e2685798dce2bd1165aede031f4c11d

自定义报警规则

fe7bc08933fcf6595305af553704a4f4c9d9b27d

6263f3ff5eb958b0fef37a6d6462a3375eb8a80c

df7ba60b0bc86d3be5a99c116bd23a6a3c3138d5 e467505724c6667346c70ef1b25a2e0406bb11db

fbcfc87be37fcd7e446a6fe85bd7641a9743b49a

38975b809074605882c3d7d360e0b26be2d9d860

优化告警联系人设置

301e8c1d5f2df019cb65e3b01df49e61dc6a61f0 7d2b5056468e53f56e2694b89ee852596b4483c9

24d4836909513c03162becda1bd386c7fd7382c7

1.2.2 测试验证：

我们可以通过反向设置告警规则来触发告警，验证云监控是否可以正常告警。例如，将CPU的阈值设置成小于80%时触发告警等。由于操作比较简单，这里就不再赘述。

至此，我们便可以及时地发现服务器的性能瓶颈与异常状态。

二、服务可用性监控

2.1遇到的问题

当我们发现网站无法被访问时，其中可能存在的故障点有：

1. 服务器中的相关服务异常

2. 服务器到客户端的运营商网络异常。

接到报障信息后，我们需要一个个故障点去排查。一方面，我们需要检查服务器的监听端口和相关配置文件是否正常；另一方面，我们呢还需要去排查client—server这一段运营商网络是否存在异常等问题。我们才能定位到网站访问异常的故障点。步骤繁琐，效率底，不能快速定位问题。

2.2 云监控如何解决

2.2.1 总体思路：

使用云监控分别从内网和外网对服务的可用性进行监控，由于使用云监控进行内网进行监控时，跳开运营商网络异常这个故障点。所以我们指需要综合内外网的警情况，就可以快速定位到故障发生的位置。

2.2.2 实现步骤如下

1. 建立外网监控

fa3515eb3f9a153a9bf5e22c3e18fe2de3137fae

73c992d2f15fbf0f0f241ba08f6fbf95836270a1

a90a8f8153d51836115f8ee49cd5f7798eb19032

域名仅做举例，不要雷同哦

5b2f17a1cc0be5b4f14b6f06fcbe3347fecb6b6e

33b29240af7d2c6b94b98821df7fed5a5b75b667

e52997cbf33306922f78018a9539d30f1c6ade8a

2. 建立内网监控

8f4e1708fe7f047cbd1c89d62c4eaef0ab1e74b4

9e40f55dbba362dc47cc12795ed525a23075d3b3

582cd9a4932cdc5335b4eb36f7f523c6d8c7aaf4

981719dc93e2975ac3e457b1ed649124841b6931

3f77e6acc542713c277e8adb61d4a52da2e29eee

410a48a80a959264b00e075a8f7e2fde16c9da95 1d9a21e8abc2cd09bde933c4e4931f72fe116be4

注意：探测源和目标主机同需属于一个安全组。

3. 测试验证

I 更改安全组策略模拟运营商网络异常。

在安全组中新增一条优先级更高的拒绝外网访问目标主机80端口的安全策略。

（这里仅做模拟测试，请勿在生产环境操作）

可以收到如下告警信息：

976f748ab0a8060b73cf9eb2fe199d24b8327309

20c76c0650467c4326f73ef20df20300ce0c34c3

与此同时，内网监控是正常的：

e7bbb23738e472af6508f21d228774ddd746c29d

小结：

如果我们只收到外网的监控告警信息，但是没有收到内网的告警信息，则说明故障点是在外网的网络运营商。针对运营商问题，可以在云监控上进一步查看受影响的区域。

II 将服务器关机模拟服务本身异常

收到如下告警信息

b7d2516c838ec185e237c402dc330062d52fb667

小结：

当我们收到内网的告警信息时，往往还会伴还会随着外网的告警信息。这就说明服务器的相关服务异常，这就需要我们登陆到服务器上进一步排查造成服务异常的原因。

综上所述，当我们只收到外网的监控告警信息时，说明故障来自外网。当我们同时收到内外网的告警信息时，则说明故障点来自服务器，需要到服务器上排查。

文章标签：

云监控

监控

测试技术

运维

关键词：

云监控运维

bbskkb

目录

相关文章

阿里云SRE团队小编

|

运维监控专有云

TAC报警中心：专有云告警生命周期一站式管理运维平台

TAC报警中心是阿里云SRE混合云团队为专有云精心打造的一站式告警运维平台，覆盖专有云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警，提供告警生命周期管理以及报警外发等解决方案。帮助专有云快速发现、定位异常问题，协助产品团队进行产品优化。

阿里云SRE团队小编

2858 0 0

TAC报警中心：专有云告警生命周期一站式管理运维平台

游客6kyzki537plg4

|

运维监控数据可视化

从告警到巡检，YashanDB Cloud Manager 帮我省下一半运维时间

数据库运维常依赖人工操作，易引发业务问题。YashanDB Cloud Manager（YCM）改变这一现状：可视化实例管理、全栈资源监控、智能巡检、灵活告警、高可用保障、权限审计体系，助企业降低故障影响、提升DBA效率、强化安全合规、标准化运维流程。若你被数据库运维困扰，可尝试此国产平台。

游客6kyzki537plg4

283 1 1

土木林森

|

Prometheus 运维监控

智能运维实战：Prometheus与Grafana的监控与告警体系

【10月更文挑战第26天】Prometheus与Grafana是智能运维中的强大组合，前者是开源的系统监控和警报工具，后者是数据可视化平台。Prometheus具备时间序列数据库、多维数据模型、PromQL查询语言等特性，而Grafana支持多数据源、丰富的可视化选项和告警功能。两者结合可实现实时监控、灵活告警和高度定制化的仪表板，广泛应用于服务器、应用和数据库的监控。

土木林森

1651 3 3

奔跑的数据

|

数据采集运维监控

数据采集监控与告警：错误重试、日志分析与自动化运维

本文探讨了数据采集技术从“简单采集”到自动化运维的演进。传统方式因反爬策略和网络波动常导致数据丢失，而引入错误重试、日志分析与自动化告警机制可显著提升系统稳定性与时效性。正方强调健全监控体系的重要性，反方则担忧复杂化带来的成本与安全风险。未来，结合AI与大数据技术，数据采集将向智能化、全自动方向发展，实现动态调整与智能识别反爬策略，降低人工干预需求。附带的Python示例展示了如何通过代理IP、重试策略及日志记录实现高效的数据采集程序。

奔跑的数据

626 7 8

数据采集监控与告警：错误重试、日志分析与自动化运维

Zabbix中国

|

运维监控前端开发

Zabbix告警分析新革命：DeepSeek四大创新场景助力智能运维

面对日益复杂的IT环境，高效分析监控数据并快速响应成为运维的关键挑战。本文深入探讨了DeepSeek与Zabbix结合的创新应用，包括一键式智能告警分析、Zabbix文档知识库助手及钉钉告警增强功能。通过部署指南和实用脚本，展示了如何提升故障排查效率，为运维工程师提供高效解决方案。

Zabbix中国

1425 5 5

游客vz3ulepoozjvy

|

运维 Prometheus 监控

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

WatchAlert 是一个开源的多数据源告警引擎，支持从 Prometheus、Elasticsearch、Kubernetes 等多种数据源获取监控数据，并根据预定义的告警规则触发告警。它具备多数据源支持、灵活的告警规则、多渠道告警通知、可扩展架构和高性能等核心特性，帮助团队更高效地监控和响应问题。项目地址：https://github.com/opsre/WatchAlert

游客vz3ulepoozjvy

2029 18 18

🎉 WatchAlert - 开源多数据源告警引擎【运维研发必备能力】

土木林森

|

Prometheus 运维监控

智能运维实战：Prometheus与Grafana的监控与告警体系

【10月更文挑战第27天】在智能运维中，Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储，支持灵活的查询语言PromQL；Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则，帮助运维团队实时监控系统状态，确保稳定性和可靠性。

土木林森

1402 0 0

阿里云云原生

|

运维 Prometheus 监控

告警运维中心｜构建高效精准的告警协同处理体系

基于报告，ARMS 能快速的整合上下文，包括 Prometheus 监控进行监控。还有前端监控的相关数据，都会整合到报告里面，进行全方位检测来收敛相关问题。

阿里云云原生

2407 0 1

告警运维中心｜构建高效精准的告警协同处理体系

文刀禾乃

|

运维监控安全

多监控系统产生的告警如何高效管理-运维事件中心

阿里云运维事件中心作为数字化运营企业业务连续性的一站式运维管理平台，提供丰富的监控集成、强大的报警降噪、可靠的通知、灵活的事件流转、基于ITIL的故障管理等功能，帮助企业完成数字化管理。

文刀禾乃

1097 0 0

多监控系统产生的告警如何高效管理-运维事件中心

云内容小助手

|

运维监控算法

如何建立高效告警体系提升日常运维效|学习笔记

快速学习如何建立高效告警体系提升日常运维效。

云内容小助手

608 0 0

如何建立高效告警体系提升日常运维效|学习笔记

阿里云MVP

热门文章

最新文章

还在用命令行查问题吗？云监控提供30余种服务器监控指标，等你来用！

如何使用云监控Dashboard查看ECS资源使用情况？

阿里云监控grafana数据源使用说明文档

使用云监控实现GPU云服务器的GPU监控和报警（上） - 自定义监控

云监控推出应用分组，帮你在阿云上跨地域、跨产品从业务角度管理资源，提高运维效率！

阿里云容器Kubernetes监控(三) - 与云监控的集成与使用

云服务器 ECS 监控：使用云监控监控ECS实例

使用云监控实现GPU云服务器的GPU监控和报警（下）-云监控插件监控

【云计算的1024种玩法】云监控的深入使用和云监控钉钉机器人创建

喜讯：RDS报警功能接入云监控

【阿里云弹性计算】ECS实例监控与告警系统构建：利用阿里云监控服务保障稳定性

阿里云ECS云监控界面

ECS阿里云监控服务

使用go-zero微服务框架实现云监控后台（二.远程指令下发）

使用go-zero微服务框架实现云监控后台(三.c语言操作cJson封装，json和结构体互转)

使用go-zero微服务框架实现云监控后台（一.后台微服务搭建）

云监控cms与ali promethues 结合 ali grafana 的“百变金刚”灵活观测心得

基于阿里云 CloudMonitor云监控自定义监控大盘对 EMR 自定义监控实践

让你的服务器和应用不再担惊受怕-阿里云监控配置实战

云监控之自定义监控

相关课程

更多

云拨测产品能力与应用场景解读

相关电子书

更多

ARMS 智能告警套件最佳实践

智能告警：IT系统神经中枢

《阿里云云拨测发布》PDF

相关实验场景

更多

通过轻量消息队列（原MNS）主题HTTP订阅+ARMS实现自定义数据多渠道告警

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎