云监控之运维篇

本文涉及的产品
云监控,每月短信1000条
简介: 正所谓“凡事预则立,不预则废.”,那么,当服务器上线后,我们如何预先知道服务器目前的健康状态,及时的去排除故障点呢? 此外,随着公司业务的增长,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地去提升服务器的硬件性能,为企业优化信息平台的投入成本呢? 云监控--你的好帮手。

一、服务器的日常监控

1.1 遇到的潜在问题

随着公司的发展,公司的业务量不断的增加,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地提升硬件性能,为企业优化信息平台的投入成本呢?

1.2 云监控如何解决

1.2.1 总体思路:

首先,需要安装云监控的插件;然后,对服务器的CPU、内存、磁盘、带宽等指标进行监控;最后,通过设置阈值告警。

当服务器的某项指标达到性能瓶颈时,会自动触发告警,并及时的通知到运维人员进行处理。实现日常运维里面的自动化告警。

1.2.2 详细步骤如下:

安装云监控插件


ec5af85ebf69032a5faec235976948e1be8fb2c6


18e7249a6e2685798dce2bd1165aede031f4c11d


自定义报警规则


fe7bc08933fcf6595305af553704a4f4c9d9b27d


6263f3ff5eb958b0fef37a6d6462a3375eb8a80c

df7ba60b0bc86d3be5a99c116bd23a6a3c3138d5e467505724c6667346c70ef1b25a2e0406bb11db


fbcfc87be37fcd7e446a6fe85bd7641a9743b49a


38975b809074605882c3d7d360e0b26be2d9d860

优化告警联系人设置



301e8c1d5f2df019cb65e3b01df49e61dc6a61f07d2b5056468e53f56e2694b89ee852596b4483c9


24d4836909513c03162becda1bd386c7fd7382c7

1.2.2  测试验证:

我们可以通过反向设置告警规则来触发告警,验证云监控是否可以正常告警。例如,将CPU的阈值设置成小于80%时触发告警等。由于操作比较简单,这里就不再赘述。

至此,我们便可以及时地发现服务器的性能瓶颈与异常状态。

二、服务可用性监控

2.1遇到的问题

当我们发现网站无法被访问时,其中可能存在的故障点有:

1.   服务器中的相关服务异常

2.   服务器到客户端的运营商网络异常。

接到报障信息后,我们需要一个个故障点去排查。一方面,我们需要检查服务器的监听端口和相关配置文件是否正常;另一方面,我们呢还需要去排查client—server这一段运营商网络是否存在异常等问题。我们才能定位到网站访问异常的故障点。步骤繁琐,效率底,不能快速定位问题。

2.2 云监控如何解决

2.2.1 总体思路:

使用云监控分别从内网和外网对服务的可用性进行监控,由于使用云监控进行内网进行监控时,跳开运营商网络异常这个故障点。所以我们指需要综合内外网的警情况,就可以快速定位到故障发生的位置。

2.2.2 实现步骤如下

1. 建立外网监控

fa3515eb3f9a153a9bf5e22c3e18fe2de3137fae


73c992d2f15fbf0f0f241ba08f6fbf95836270a1

a90a8f8153d51836115f8ee49cd5f7798eb19032


域名仅做举例,不要雷同哦


5b2f17a1cc0be5b4f14b6f06fcbe3347fecb6b6e

33b29240af7d2c6b94b98821df7fed5a5b75b667

e52997cbf33306922f78018a9539d30f1c6ade8a

2. 建立内网监控

8f4e1708fe7f047cbd1c89d62c4eaef0ab1e74b4


9e40f55dbba362dc47cc12795ed525a23075d3b3


582cd9a4932cdc5335b4eb36f7f523c6d8c7aaf4

981719dc93e2975ac3e457b1ed649124841b6931

3f77e6acc542713c277e8adb61d4a52da2e29eee

410a48a80a959264b00e075a8f7e2fde16c9da951d9a21e8abc2cd09bde933c4e4931f72fe116be4



注意:探测源和目标主机同需属于一个安全组。

3. 测试验证

更改安全组策略模拟运营商网络异常。

 在安全组中新增一条优先级更高的拒绝外网访问目标主机80端口的安全策略。

(这里仅做模拟测试,请勿在生产环境操作)

可以收到如下告警信息:

976f748ab0a8060b73cf9eb2fe199d24b8327309


20c76c0650467c4326f73ef20df20300ce0c34c3

与此同时,内网监控是正常的:

e7bbb23738e472af6508f21d228774ddd746c29d

小结:

如果我们只收到外网的监控告警信息,但是没有收到内网的告警信息,则说明故障点是在外网的网络运营商。针对运营商问题,可以在云监控上进一步查看受影响的区域。

II 将服务器关机模拟服务本身异常

收到如下告警信息

b7d2516c838ec185e237c402dc330062d52fb667

 

小结:

当我们收到内网的告警信息时,往往还会伴还会随着外网的告警信息。这就说明服务器的相关服务异常,这就需要我们登陆到服务器上进一步排查造成服务异常的原因。

 

综上所述,当我们只收到外网的监控告警信息时,说明故障来自外网。当我们同时收到内外网的告警信息时,则说明故障点来自服务器,需要到服务器上排查。


相关实践学习
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
目录
相关文章
|
Web App开发 JSON 运维
轻松SRE-使用云监控实现自动化运维
本文将根据SRE中关于监控Action的定义,来讲述如何使用云监控来完成自动化运维的能力。
2816 0
|
运维 监控
云监控推出应用分组,帮你在阿云上跨地域、跨产品从业务角度管理资源,提高运维效率!
云监控应用分组上线啦,跨地域、跨产品管理云上资源,为您提供一站式企业级监控运维管理方案!
6311 0
|
4月前
|
存储 传感器 监控
云监控:引领未来监控技术的新篇章
传统监控系统需要投入大量的人力物力进行建设和维护,而云监控则通过云计算平台的按需付费特性降低了建设和维护成本。用户只需根据实际需求购买相应的服务和资源即可实现监控功能,无需担心设备升级、维护等问题。
|
6月前
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
259 1
|
弹性计算 运维 监控
基于云监控实现的监控系统
通过阿里云云监控功能给非阿里云主机安装监控插件,从而实现对非阿里云主机的各项指标进行监控和管理,在配置报警规则和报警人的情况下,能对特定的场景做出报警反应通知到报警人的手机上。
|
SQL 消息中间件 分布式计算
基于阿里云 CloudMonitor云监控自定义监控大盘对 EMR 自定义监控实践
本文旨在分享 EMR 平台大数据服务基于阿里云 CloudMonitor 的监控实践,给客户提供除了 EMR 平台默认监控以外,自建监控方式,适用于统一多个阿里云服务的监控监控场景。
820 2
基于阿里云 CloudMonitor云监控自定义监控大盘对 EMR 自定义监控实践
|
弹性计算 监控 应用服务中间件
云监控之自定义监控
云监控之自定义监控
|
监控 负载均衡 网络协议
云监控-主机监控功能介绍|学习笔记
快速学习云监控-主机监控功能介绍
245 0
云监控-主机监控功能介绍|学习笔记
|
弹性计算 监控 开发者
云监控-创建 Dashboard 监控大盘|学习笔记
快速学习云监控-创建 Dashboard 监控大盘
222 0
云监控-创建 Dashboard 监控大盘|学习笔记