一、服务器的日常监控
1.1 遇到的潜在问题
随着公司的发展,公司的业务量不断的增加,网站的访问量越来越大,如何快速定位到系统的性能瓶颈,有针对性地提升硬件性能,为企业优化信息平台的投入成本呢?
1.2 云监控如何解决
1.2.1 总体思路:
首先,需要安装云监控的插件;然后,对服务器的CPU、内存、磁盘、带宽等指标进行监控;最后,通过设置阈值告警。
当服务器的某项指标达到性能瓶颈时,会自动触发告警,并及时的通知到运维人员进行处理。实现日常运维里面的自动化告警。
1.2.2 详细步骤如下:
安装云监控插件
自定义报警规则
优化告警联系人设置
1.2.2 测试验证:
我们可以通过反向设置告警规则来触发告警,验证云监控是否可以正常告警。例如,将CPU的阈值设置成小于80%时触发告警等。由于操作比较简单,这里就不再赘述。
至此,我们便可以及时地发现服务器的性能瓶颈与异常状态。
二、服务可用性监控
2.1遇到的问题
当我们发现网站无法被访问时,其中可能存在的故障点有:
1. 服务器中的相关服务异常
2. 服务器到客户端的运营商网络异常。
接到报障信息后,我们需要一个个故障点去排查。一方面,我们需要检查服务器的监听端口和相关配置文件是否正常;另一方面,我们呢还需要去排查client—server这一段运营商网络是否存在异常等问题。我们才能定位到网站访问异常的故障点。步骤繁琐,效率底,不能快速定位问题。
2.2 云监控如何解决
2.2.1 总体思路:
使用云监控分别从内网和外网对服务的可用性进行监控,由于使用云监控进行内网进行监控时,跳开运营商网络异常这个故障点。所以我们指需要综合内外网的警情况,就可以快速定位到故障发生的位置。
2.2.2 实现步骤如下
1. 建立外网监控
域名仅做举例,不要雷同哦
2. 建立内网监控
注意:探测源和目标主机同需属于一个安全组。
3. 测试验证
I 更改安全组策略模拟运营商网络异常。
在安全组中新增一条优先级更高的拒绝外网访问目标主机80端口的安全策略。
(这里仅做模拟测试,请勿在生产环境操作)
可以收到如下告警信息:
与此同时,内网监控是正常的:
小结:
如果我们只收到外网的监控告警信息,但是没有收到内网的告警信息,则说明故障点是在外网的网络运营商。针对运营商问题,可以在云监控上进一步查看受影响的区域。
II 将服务器关机模拟服务本身异常
收到如下告警信息
小结:
当我们收到内网的告警信息时,往往还会伴还会随着外网的告警信息。这就说明服务器的相关服务异常,这就需要我们登陆到服务器上进一步排查造成服务异常的原因。
综上所述,当我们只收到外网的监控告警信息时,说明故障来自外网。当我们同时收到内外网的告警信息时,则说明故障点来自服务器,需要到服务器上排查。