常用监控概念和术语讲解

简介:
服务器性能监控:是指针对服务器系统的运行状态以及各项指标的监控,具体的监控指标请参考:可以监控到服务器的哪些性能指标?

通过自定义监控,您能随心所欲的监控您想监控的数据,如Memcached、Java虚拟机、论坛在线人数等等。

对各种监控项目支持自定义告警设置,这样您可以更加灵活的设置告警阈值,比如PING响应时间连续3次超过200ms,或者服务器CPU最近5分钟平均负载超过10。

通过URL回调功能,您可以让告警通知发送到您指定的URL,使您能更加灵活的处理告警消息

Ping监控是指对指定的服务器进行ICMP Ping检测,获得可用率报告以及响应时间、丢包率等的监控。

TCP监控是指通过TCP协议对服务器指定端口可用率及响应时间的监控。

FTP监控是指对FTP(File Transfer Protocol)服务器可用率及响应时间的监控。

网络运营商是指提供网络接入服务的机构,之前国内网络运营商为:联通、移动、电信、网通、铁通、卫通,经过合并后目前国内网络运营商为:中国移动、中国联通、中国电信。

站点监控是指通过特定标准网络协议对网站或服务器进行外部监控,它包括多种类型,具体请参考:站点监控包括哪些类型?

服务性能监控是指针对Apche/MySQL/Nginx/Lighttpd等服务端软件的运行状态以及各项指标的监控。

HTTP监控是指通过HTTP协议对站点的可用率及响应时间的监控。

DNS监控指对DNS(Domain Name System)域名解析服务器的可用率及响应时间的监控。

UDP监控是通过UDP协议对服务器指定端口的可用率及响应时间的监控。

SMTP监控是指对SMTP邮件服务器可用率及响应时间的监控。

++++++++++++++ 可用率
可用率是指,网站或者服务器可以正常访问的时间占总时间的百分比。
举个例子,比如网站首页在一天内总是可以正常访问,那么首页这一天的可用率为100%。

如果网站首页有9分钟无法访问,而一天共有1440分钟,那么首页的可用率为:
((1440 - 9) / 1440) * 100%,也就是99.37%。

日期         %可用率   故障时间
2017-01-27   100%     -
2017-01-26   99.37%    9分钟
2017-01-25   100%     -

++++++++++++++ 丢包率
丢包率是指丢失数据包数量占所发送数据包的比率。

++++++++++++++ 响应时间

首先,任何时候我们都希望响应时间越短越好,这意味着用户可以更快的访问您的站点或服务器。
 我们对响应时间进行了颜色的标注,它们的意思是:

    绿色:表示响应时间在正常范围,比较快;
    蓝色:表示响应时间有点慢,需要引起注意;
    黄色:表示响应时间比较慢,需要引起注意;
    红色:表示响应时间非常慢,需要想办法优化;

那么响应时间的具体定义是什么呢?它是指从用户对站点或服务器发送请求开始,一直到目标内容下载到用户端,这段时间就是响应时间。
对于网页/HTTP类型的站点监控,响应时间只针对网页本身,包括了从DNS解析、与网站服务器建立网络连接、网站服务器处理到下载网页内容等多个环节,详细记录了每次的检查快照,您可以通过这些数据来分析如何优化性能。您可以参考:HTTP响应时间详细分析
DNS域名解析  1.3ms
建立连接     19.59ms
服务器计算    26.24ms
下载内容      278.60ms
需要注意的是,网页的响应时间不包括网页中其它组件(比如CSS、Javascript脚本)的下载时间。
对于Ping类型监控,响应时间其实就是我们经常在命令行中用ping命令看到的time值,也就是我们常说的Ping值。

++++++++++++++++ CPU使用率
CPU使用率指CPU使用时间占CPU总运行时间的比率。
其中Linux/Unix操作系统将CPU使用率又分为:
    User Time   执行用户进程花费时间所占的比率;
    System Time 执行内核进程和中断花费时间所占比率;
    Wait IO     因为IO等待而使CPU处于空闲状态等花费时间所占比率;
    Idle        CPU处于空闲状态的时间所占比率;
User Time + System Time + Wait IO = 总使用率,而Windows操作系统中CPU使用只分使用状态和空闲状态,使用状态所占时间比率即为使用率。


+++++++++++++++ 故障率
故障率是指,项目在某段时间内故障时长占总时长的比例。
举个例子,某个项目的监测频率为2分钟,在10分钟内进行了5次监测,每次监测都有3个监测点(A、B、C)在执行任务。具体监测结果见下表,则
故障率=(2+0+0+0+0)/10=20%

      第一次监测   第二次监测   第三次监测   第四次监测    第五次监测
监测点A  不可用      可用        可用        可用        可用
监测点B  不可用      可用        可用        可用        可用
是否故障   是        否          否          否         否
故障时长  2分钟      0分钟       0分钟       0分钟       0分钟
    
注:
故障的定义:每次监测,所有监测点故障则记为该项目故障。
故障时长:每次监测结果为故障时,故障时长则加一个此次监测频率的时长。

++++++++++++++++++架构图
应用架构图最多有五层且顺序固定,从上到下分别为:网站层、网络层、服务层、存储层、物理层。每层包括的项目类型如下表:

网站层  http、网页性能管理
网络层  FTP、SMTP、Ping、traceroute、DNS、TCP、UDP
服务层  Apache、lighttpa、nginx、memcache、tomcat、IIS
存储层  Mysql、mongoDB、Redis、SQLserver、oracle
物理层  服务器性能

+++++++++++++++++平均可用率
平均可用率是指,监测点可用率的平均值。
举个例子,比如用户在“可用率统计-监测点数据”页面选择了西北地区&电信(如下图),包括3个监测点:西安电信99.86%、乌鲁木齐电信100%、兰州电信100%。则,

平均可用率=(99.86%+100%+100%)/3=99.95%


本文转自cloves 51CTO博客,原文链接:http://blog.51cto.com/yeqing/1892710

相关文章
|
4月前
|
数据采集 数据管理 数据挖掘
数据治理5个最容易混淆的关键词:主数据、元数据、数据质量、数据安全、指标口径,你都搞明白了吗?
企业在数据管理中常面临“听起来都懂,做起来都乱”的困境,尤其对主数据、元数据、数据质量、数据安全与指标口径等关键概念模糊,影响数据治理与业务决策。本文用通俗方式讲清这五大核心概念,帮助企业厘清数据治理基础逻辑,提升数据可用性与业务协同效率,为BI、数据中台等建设打下坚实基础。
|
5月前
|
SQL 搜索推荐 数据挖掘
数据分析怎么想、怎么用?一文讲透常见思维框架!
在数据分析中,很多人面对数据感到迷茫,主要问题在于缺乏清晰的思维框架。本文介绍了五种常用的数据分析思维框架,如拆解法、对比分析法、5W1H问题导向法等,帮助你在业务场景中理清思路、快速定位问题核心。通过实际案例讲解如何在不同情境下灵活运用这些框架,提升分析效率与逻辑表达能力,真正做到用数据驱动决策。
|
jenkins 持续交付 开发工具
Jenkins-pipline流水线语法介绍并结合Blue Ocean查看流水线(十四)
jenkins集成pipeline流水线 1.pipeline概述 pipeline流水线,可以直观的展示每个阶段做的任务,以及每个阶段耗费的时间。 pipeline不在使用鼠标来实现自动构建,也不要去看控制台日志,而是全程使用代码的方式来实现,构建完成后会展示一个视图,用来展示每个阶段完成的情况
654 0
Jenkins-pipline流水线语法介绍并结合Blue Ocean查看流水线(十四)
|
1月前
|
人工智能 自然语言处理 搜索推荐
想让豆包在答案里提到你的官网?这三个步骤缺一不可
想让豆包引用你的官网?必须做好三步:一是将内容模块化、结构清晰,便于AI理解;二是通过专业资质、数据出处和结构化标记提升权威性;三是持续监测引用效果,优化内容策略。AI搜索时代,被“看见”才能赢得客户。
234 1
|
5月前
|
人工智能 算法 安全
AR眼镜在工业AI大模型识别的使用流程​
AR眼镜融合AI大模型,实现工业场景智能识别与预警,提升制造质量与安全。通过多模态模型适配、开源模型选型、端云协同部署及定向训练,打造高精度工业AI识别系统,助力制造业智能化升级。
|
12月前
|
人工智能 JavaScript IDE
好消息,在 Visual Studio 中可以免费使用 GitHub Copilot 了!
好消息,在 Visual Studio 中可以免费使用 GitHub Copilot 了!
1009 11
|
10月前
|
Serverless 计算机视觉
YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性
YOLOv11改进策略【小目标改进】| Shape-NWD:融合改进,结合Shape-IoU和NWD 更好地适应小目标特性
1795 9
|
云安全 存储 安全
带你读《阿里云安全白皮书》(二十二)——云上安全重要支柱(16)
在全球化背景下,阿里云高度重视云平台的安全合规建设,确保客户在不同地区和行业能够满足监管要求。阿里云通过140多项安全合规认证,提供全面的专业安全合规服务和便捷高效的安全合规产品,帮助企业高效且低成本地实现安全合规目标。更多详情可参见阿里云官网“阿里云信任中心 - 阿里云合规”。
|
安全 物联网 物联网安全
智能物联网安全:物联网设备的防护策略与最佳实践
【10月更文挑战第27天】随着物联网技术的快速发展,智能设备已广泛应用于生活和工业领域。然而,物联网设备的安全问题日益凸显,主要威胁包括中间人攻击、DDoS攻击和恶意软件植入。本文探讨了物联网设备的安全防护策略和最佳实践,包括设备认证和加密、定期更新、网络隔离以及安全标准的制定与实施,旨在确保设备安全和数据保护。
637 0
微信接口报错 "errcode":40163,"errmsg":"code been used, 如何处理?
【10月更文挑战第11天】微信接口报错 "errcode":40163,"errmsg":"code been used, 如何处理?
6604 1