开发者社区 问答 正文

OSS监控指标参考手册


根据用户使用场景,将OSS的指标分为用户层级和Bucket(存储空间)层级两个层级维度进行监控。
另外,为了更好地观察监控数据以及匹配计费策略,除了一般监控项的时间序指标外,OSS对现有的监控指标项进行统计分析,提供了一段时间内的统计指标,如请求状态分布统计和当月计量统计,详细介绍参见下文。
除了计量指标和统计指标,所有的指标(时间序指标)都是分钟级别的数据汇总(如求和、求最大值或者求均值等等)。而计量指标是按小时的数据进行汇总的时间序指标。

用户层级指标


用户层级指标是指从用户的账户级别对OSS系统使用的总体情况进行监控的指标信息,是对该账户下的所有的Bucket相关监控数据的汇总。其中包括当月计量统计、服务监控总览和请求状态详情三个方面。

服务监控总览


服务监控总览指标属于基础服务指标,具体指标项详见下表。注意,下面所有的指标都是在用户层级监控的。

服务监控总览指标名称单位描述
可用性%存储服务的系统可用性衡量指标。通过公式 1 - 服务端错误请求(返回状态码为5xx)占总请求的百分比而得到
有效请求率%有效请求占总请求数的百分比,有效请求的介绍见下面说明
总请求数次数被OSS服务端接收并处理的请求总数
有效请求数次数返回状态码为2xx和3xx的请求总数
公网流出流量字节通过互联网网络的下行流量
公网流入流量字节通过互联网网络的上行流量
内网流出流量字节通过服务系统内部网络的下行流量
内网流入流量字节通过服务系统内部网络的上行流量
cdn流出流量字节开通cdn加速服务之后,通过cdn产生的下行流量,即回源流量
cdn流入流量字节开通cdn加速服务之后,通过cdn产生的上行流量
跨区域复制流出流量字节开通跨区域复制功能之后,数据复制过程产生的下行流量
跨区域复制流入流量字节开通跨区域复制功能之后,数据复制过程产生的上行流量

除了以上具体的监控指标,还提供一段时间内的请求状态分布统计,主要是根据返回的状态码或者OSS错误码进行分类的请求的统计信息(被观察时间段内的请求次数总和以及占比),相关的监控指标项信息详见以下请求状态详情的介绍。

请求状态详情


请求状态详情指标是指根据请求返回状态码或者OSS错误码进行分类的请求的监控信息,属于基础服务指标,具体指标项详见下表。注意,下面所有的指标都是在用户层级监控的。
请求状态详情指标名称单位描述
服务端错误请求总数次数返回状态码为5xx的系统级错误请求总数
服务端错误请求占比%服务端错误请求总数占总请求数的百分比
网络错误请求总数次数HTTP状态码为499的请求总数,
网络错误请求占比%网络错误请求数占总请求数的百分比
客户端授权错误请求总数次数返回状态码403的请求总数
客户端授权错误请求占比%授权错误请求数占总请求数的百分比
客户端资源不存在错误请求总数次数返回状态码为404的请求总数
客户端资源不存在错误请求占比%资源不存在错误请求数占总请求数百分比
客户端超时错误请求总数次数返回状态码为408或者返回的OSS错误码为RequestTimeout的请求总数
客户端超时错误请求占比%网络错误请求总数占总请求数的百分比
客户端其他错误请求总数次数除了以上提到的客户端错误请求之外的其他返回状态码为4xx的请求总数
客户端其他错误请求占比%客户端其他错误请求数占总请求数的百分比
成功请求总数次数返回状态码为2xx的请求总数
成功请求占比%成功请求数占总请求数的百分比
重定向请求总数次数返回状态码为3xx的请求总数
重定向请求占比%重定向请求数占总请求数的百分比


当月计量统计


当月计量统计指标是指从当月的1号0点开始,到当月计量采集截止时间为止,这段时间内计量指标的统计数据。
目前统计的计量指标如下:
当月计量统计指标名称单位描述
存储大小字节在计量采集截止时间前属于该用户的所有Bucket占用的存储总大小
公网流出流量字节从本月1号0点开始累积到计量采集截止时间为止,用户所使用的所有公网流出流量的总和。
Put类请求数次数从本月1号0点开始累积到计量采集截止时间为止,用户所使用的所有Put类请求的总和。
Get类请求数次数从本月1号0点开始累积到计量采集截止时间为止,用户所使用的所有Get类请求的总和。


Bucket层级指标


Bucket层级指标是指对具体的存储空间的OSS操作情况进行监控的指标信息,具有更强的业务场景,所以除了类似从用户层面可以监控的服务监控总览和请求状态详情这些基础服务指标项和当月计量统计之外,还有计量参考、延时和成功请求操作分类等计量指标和性能指标。

服务监控总览


监控项指标含义同用户层级的[backcolor=transparent]服务监控总览,从具体的Bucket进行监控。

请求状态详情


监控项指标含义同用户层级的[backcolor=transparent]请求状态详情,从具体的Bucket进行监控。

当月计量统计


统计方式同用户层级的[backcolor=transparent]当月计量统计,从具体的Bucket资源使用情况进行统计。
当月计量统计指标名称单位描述
存储大小字节在计量采集截止时间前该Bucket占用的存储大小
公网流出流量字节从本月1号0点开始累积到计量采集截止时间为止,该Bucket的公网流出流量的总和。
Put类请求数次数从本月1号0点开始累积到计量采集截止时间为止,该Bucket的所有Put类请求的总和。
Get类请求数次数从本月1号0点开始累积到计量采集截止时间为止,该Bucket的所有Get类请求的总和。


计量参考


计量指标的时间序监控,具体如下:
当月计量统计指标名称单位描述
存储大小字节该Bucket每小时使用的平均存储大小
公网流出流量字节该Bucket每小时的公网流出流量的总和
Put类请求数次数该Bucket每小时的Put类请求的总和
Get类请求数次数该Bucket每小时的Get类请求的总和


延时


请求延时是系统性能的直观反映。监控服务提供了分钟级别的平均延时和最大延时两类指标,分别反映系统平均响应能力和系统抖动情况。并且根据OSS API请求操作类型进行分类,更细粒度地反应系统应对不同操作的性能状况。目前只对关于Bucket的操作并且涉及数据操作(不包含对meta操作)的API进行监控。另外,延时监控指标分别从E2E和服务器两条不同的链路进行收集,便于分析性能热点以及环境问题,其中:
  • E2E延时是指向OSS系统发出的成功请求的端到端滞后时间,包括在OSS系统中读取请求、发送响应以及接受响应确认所需的处理时间。
  • 服务器延时是指OSS系统成功处理请求所使用的滞后时间,不包括E2E延时中的网络滞后时间。

注意,性能相关指标都是对成功请求(返回状态码为2xx)进行的监控。
具体的监控指标项如下表:
延时指标名称单位描述
GetObject请求平均E2E延时毫秒请求API为GetObject的成功请求的平均端到端延时
GetObject请求平均服务器延时毫秒请求API为GetObject的成功请求的平均服务器延时
GetObject请求最大E2E延时毫秒请求API为GetObject的成功请求的最大端到端延时
GetObject请求最大服务器延时毫秒请求API为GetObject的成功请求的最大服务器延时
HeadObject请求平均E2E延时毫秒请求API为HeadObject的成功请求的平均端到端延时
HeadObject请求平均服务器延时毫秒请求API为HeadObject的成功请求的平均服务器延时
HeadObject请求最大E2E延时毫秒请求API为HeadObject的成功请求的最大端到端延时
HeadObject请求最大服务器延时毫秒请求API为HeadObject的成功请求的最大服务器延时
PutObject请求平均E2E延时毫秒请求API为PutObject的成功请求的平均端到端延时
PutObject请求平均服务器延时毫秒请求API为PutObject的成功请求的平均服务器延时
PutObject请求最大E2E延时毫秒请求API为PutObject的成功请求的最大端到端延时
PutObject请求最大服务器延时毫秒请求API为PutObject的成功请求的最大服务器延时
PostObject请求平均E2E延时毫秒请求API为PostObject的成功请求的平均端到端延时
PostObject请求平均服务器延时毫秒请求API为PostObject的成功请求的平均服务器延时
PostObject请求最大E2E延时毫秒请求API为PostObject的成功请求的最大端到端延时
PostObject请求最大服务器延时毫秒请求API为PostObject的成功请求的最大服务器延时
AppendObject请求平均E2E延时毫秒请求API为AppendObject的成功请求的平均端到端延时
AppendObject请求平均服务器延时毫秒请求API为AppendObject的成功请求的平均服务器延时
AppendObject请求最大E2E延时毫秒请求API为AppendObject的成功请求的最大端到端延时
AppendObject请求最大服务器延时毫秒请求API为AppendObject的成功请求的最大服务器延时
UploadPart请求平均E2E延时毫秒请求API为UploadPart的成功请求的平均端到端延时
UploadPart请求平均服务器延时毫秒请求API为UploadPart的成功请求的平均服务器延时
UploadPart请求最大E2E延时毫秒请求API为UploadPart的成功请求的最大端到端延时
UploadPart请求最大服务器延时毫秒请求API为UploadPart的成功请求的最大服务器延时
UploadPartCopy请求平均E2E延时毫秒请求API为UploadPartCopy的成功请求的平均端到端延时
UploadPartCopy请求平均服务器延时毫秒请求API为UploadPartCopy的成功请求的平均服务器延时
UploadPartCopy请求最大E2E延时毫秒请求API为UploadPartCopy的成功请求的最大端到端延时
UploadPartCopy请求最大服务器延时毫秒请求API为UploadPartCopy的成功请求的最大服务器延时


成功请求操作分类


配合延时监控,成功请求的监控一定程度上反应了系统处理访问请求的能力。目前只监控关于Bucket的操作中涉及数据操作的API。详细的指标项如下:
成功请求操作分类指标名称单位描述
GetObject成功请求数次数请求API为GetObject的成功请求数
HeadObject成功请求数次数请求API为HeadObject的成功请求数
PutObject成功请求数次数请求API为PutObject的成功请求数
PostObject成功请求数次数请求API为PostObject的成功请求数
AppendObject成功请求数次数请求API为AppendObject的成功请求数
UploadPart成功请求数次数请求API为UploadPart的成功请求数
[tr=rgb(239, 251, 255)][td]UploadPartCopy成功请求数 次数请求API为UploadPartCopy的成功请求数 DeleteObject成功请求数次数请求API为DeleteObject的成功请求数 DeleteObjects成功请求数次数请求API为DeleteObjects的成功请求数

展开
收起
青衫无名 2017-10-17 15:56:06 2593 分享 版权
0 条回答
写回答
取消 提交回答