监控的艺术

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: 每个企业都意识到监控工作的重要性,但80%企业的监控工作仍然处在监控的初级阶段。 什么是初级阶段呢?

监控的艺术

http://netkiller.github.io/journal/monitor.html

Mr. Neo Chen (陈景峯), netkiller, BG7NYT


中国广东省深圳市龙华新区民治街道溪山美地
518131
+86 13113668890


版权声明

转载请与作者联系,转载时请务必标明文章原始出处和作者信息及本声明。

文档出处:
http://netkiller.github.io
http://netkiller.sourceforge.net

微信扫描二维码进入 Netkiller 微信订阅号 

QQ群:128659835 请注明“读者”

2017-06-16

摘要

2015-03-16 第一版


1. 背景

每个企业都意识到监控工作的重要性,但80%企业的监控工作仍然处在监控的初级阶段。

什么是初级阶段呢?
  1. 被动监控,故障发生运维人员永远不是第一个发现故障的人
  2. 监控IP地址与TCP端口,很多时候HTTP 80端口正常接受请求,但WEB服务器不能正常工作。
  3. 人肉监控(人肉运维),采用人海战术,桌面摆放很多显示器,甚至投影仪,要求监控者盯着各种仪表板界面,制定各种工作流程以及KPI考核监控人员。
  4. 人肉测试,要求监控人员每间隔几分钟人工操作一次,以确认系统正常工作,例如(没15分钟登陆一次,下一笔顶单,做一次支付等等)。
  5. 万能的重启,定其重启所有的服务器。
什么是中级阶段呢?
  1. 报警:手机短信更靠谱,因为手机随身携带(邮件不算,邮件到达速度慢,各种因素不稳定)
  2. 监控服务:探测服务的可用性,而不是仅仅监控端口,注意我是指私有协议的监控(HTTP,SMTP,FTP,MySQL 不算在内)
  3. 故障分析:通过日志与调试工具分析软件BUG,指导开发人员改善软件质量,使其故障不会再次发生,达到不用restart重启方式解决故障
  4. 半自动化测试
什么是高级阶段呢?
  1. 我认为高级阶段是监控与灾备系统打通融合一体。
  2. 除此之外监控与开发密切相关,在开发阶段需要为监控数据采集做铺垫,每开发一个新功能就要想到未来这个功能是否需要监控,怎样监控。
  3. 数据前期采集与数据挖掘非常重要,监控不仅能做软件与硬件的性能分析,还能提供决策支持,这里又涉及了BI。
  4. 除了监控,另一个息息相关的是自动故障转移,有兴趣可以看看我的其他文章 http://netkiller.github.io/journal/

监控从初级向中继再到高级,是转被动到主动,从人工到自动化。

监控不应该局限在硬件与服务,还应该延伸到业务领域。

2. 概述

你在百度上搜索监控多半是一些开源或商业软件的安装配置指南。这些文章中会告诉你怎样监控CPU、内存、硬盘空间以及网络IP地址与端口号码。

开源软件无非是 Nagios, Cacti, Mrtg, Zibbix ..... 这些软件在我的电子出书《Netkiller Monitoring 手札》中都有详细说明安装与配置方法。

商业软件也有很多如 SolarWinds, Whit's Up,PRTG ......

所有的服务器,网络设备,监控你都做了,那么按照我上面的监控分级,你处于监控的那个阶段?

3. 怎样监控

监控都有哪些手段跟方式呢?

3.1. 卫星监测

中心卫星站为中心站点向外放射,通常是通过IP地址访问远程主机,实施监控,常用方法是SNMP,SSH,以及各种Agent(代理),方式是请求然后接收返回结果,通过结果判断主机状态。

			
      Monitor Server
            |
-------------------------------
  |         |           |
[Web]    [Mail]    [Database]
			
			

以监控服务器为中心,星型散射连接其他监控节点,没有什么优点,缺点是Web跟Mail节点的通信没有监控

3.2. 逐级诊断

一级一级的向下探测,寻找故障点,需要在各个节点埋探针。

			
      Monitor Server
              |
-------------------------------      
  |           |             |
  V           V             V
  |           |             |
[Web] ---> [Cache] ---> [Database]
  \                         ^
   `------------------------|			
			
			

首先监控服务器跟星型拓扑一样监控,再让Web节点去访问Cache节点然后返回监控结果,以此类推,让Cache节点访问Database, 让Web访问Database节点。

将所有业务逻辑都逐一模拟一次,任何一个环节出现问题,立即发出警告。

3.3. 模拟人工

这里主要监控服务是否可用,可以检查软件的工作情况,涉及测试环节。

通过自动化测试工具辅助监控,例如模拟鼠标点击,键盘输入,可以监控图形界面程序与网页程序。

Windows 监控可以通过 Windows Automation API实现,通过程序控制,能够模拟人工操作软件,实现操作匹配返回结果实现自动化监控

Web页面监控的方案就太多了,比较经典的是Webdriver衍生出的各种工具Selenium - Web Browser Automation最为出名。我通过这个工具模拟用户操作,例如用户注册,登陆,发帖,下单等等,然后匹配返回结果实现自动化监控与报警

3.4. 数据分析

通过数据分析,将故障消灭在故障发生前。举一个例子,开发人员忘记设置redis 时间,虽然程序一直完好工作,但redis内存不断增长,总一天会出现故障。

我们通过采集redis状态信息,分析一段时间内数据变化发现了这个问题。

3.5. 监控与开发

谈到监控很多人认为这是运维的事情,实则不然,不懂运维的测试不是好开发。

开发过程中需要考虑到监控,例如Nginx的status模块, MySQL的show status命令, Redis的info命令,都是为监控预留的。那么你开发的程序是否考虑到了监控这块呢?

你可以通过日志形式或者管道,再或者Socket将程序的运行状态提供给监控采集程序。

4. 总结

好的监控的能让你对系统了如指掌,做到心里有数。有数据才好说话。


相关实践学习
基于Redis实现在线游戏积分排行榜
本场景将介绍如何基于Redis数据库实现在线游戏中的游戏玩家积分排行榜功能。
云数据库 Redis 版使用教程
云数据库Redis版是兼容Redis协议标准的、提供持久化的内存数据库服务,基于高可靠双机热备架构及可无缝扩展的集群架构,满足高读写性能场景及容量需弹性变配的业务需求。 产品详情:https://www.aliyun.com/product/kvstore     ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
2月前
|
测试技术 持续交付 API
软件测试的艺术:从基础到高级的探索之旅
本文通过一个新手QA工程师小张的成长故事,展现了软件测试的丰富世界。从最初的困惑和迷茫,到逐步掌握测试的基本原则、设计策略,再到深入理解自动化测试的精髓,小张的经历象征着每一位测试人员技能提升的旅程。文章旨在鼓励所有软件测试从业者不断学习和成长,以适应不断变化的技术环境。
|
11天前
|
测试技术 持续交付
探索软件测试的艺术:从基础到高级策略
【10月更文挑战第31天】本文是一篇深入探讨软件测试领域的指南,旨在为读者提供一个结构化的框架来理解并应用各种测试技术。文章将通过浅显易懂的语言和实际代码示例,带领读者从测试的基础概念出发,逐步深入到更复杂的测试策略。无论你是测试新手还是希望提升技能的专业人士,这篇文章都将为你揭示如何通过有效的软件测试保证产品质量和用户满意度。
|
28天前
|
运维 Prometheus 监控
运维之眼:监控的艺术与实践
在信息技术飞速发展的今天,运维监控已成为保障系统稳定运行的关键。本文将探讨运维监控的重要性,介绍常用的监控工具和方法,并通过实际案例分析,展示如何有效地实施监控策略,以确保系统的高可用性和性能。
|
3月前
|
jenkins 测试技术 持续交付
探索软件测试的艺术:从基础到高级
【8月更文挑战第27天】在软件开发的世界中,测试是确保产品稳定性和可靠性的关键步骤。本文将深入探讨软件测试的多个方面,包括基本概念、测试类型、测试用例设计方法,以及如何利用自动化工具提高测试效率。通过具体的代码示例,我们将展示如何在真实场景中应用这些测试技术,帮助读者构建更稳固的软件产品。
|
6月前
|
存储 机器学习/深度学习 数据可视化
开发人员必知的医疗影像基础概念
DICOM(Digital Imaging and Communication in Medical) 是医学影像领域最常见的标准之一,主要用于存储、交换和检索医学图像。如 X光片、CT扫描、MRI等。
75 1
|
6月前
|
存储 监控 安全
【亮剑】指导初学者如何搭建和使用网络视频监控系统。
【4月更文挑战第30天】本文指导初学者如何搭建和使用网络视频监控系统。核心设备包括摄像头(如固定、PTZ、多目、夜视)、存储选项(NVR、DVR、云存储)及网络交换机等。安装配置步骤涉及规划布局、安装摄像头、设置存储设备和软件配置。实时监控包括实时查看、接收警报和录像回放。理解设备功能、合理布局并细心操作,就能建立稳定监控体系。随着技术进步,未来监控系统将更智能、高效,保障安全。
565 0
|
6月前
|
敏捷开发 算法 安全
如何精准展现C/C++项目亮点:高级工程师面试指南
如何精准展现C/C++项目亮点:高级工程师面试指南
132 1
|
Cloud Native Go
面试中的工作效率:如何展示你的时间管理能力
面试中的工作效率:如何展示你的时间管理能力
157 0
|
存储 编译器 数据处理
数据掌控大师:C++ 数据处理艺术与技巧
数据掌控大师:C++ 数据处理艺术与技巧
|
前端开发 程序员 Go
自动化的艺术
自动化的艺术
146 0
自动化的艺术