OSS 监控

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,内容安全 1000次 1年
日志服务 SLS,月写入数据量 50GB 1个月
简介: 场景:云监控 OSS 出现 "数据不足" 先看下 OSS 控制台的监控的 http code 、以及 QPS 分析,如果 OSS 请求量比较小,而 OSS 对应的时间点有没有请求就会出现数据不足的情况,这种问题最好设置合理的监控数据上报时间。

浅谈

  • OSS 和云监控是两个独立的产品,但是 OSS 控制台上看到的存储容量监控以及贷款流量监控来自于云监控产品的数据。
  • OSS 的监控数据延迟 2-3 小时,同时云监控在采集 OSS 数据时存在窗口期,比如 5 分钟,如果超过窗口期后,云监控不在接受过期的数据,同时也不支持补推。
  • 所以建议广大用户不要用 OSS 控制台的监控和账单进行对账,那样是不准确的。如果要进行对账,请务必开通 OSS log 的方式去核对 log 日志计算,那样才是相对准确的值。

案例分析

案例:

云监控 OSS 出现 "数据不足"

1

分析:

先看下 OSS 控制台的监控的 http code 、以及 QPS 分析,如果 OSS 请求量比较小,而 OSS 对应的时间点有没有请求就会出现数据不足的情况,这种问题最好设置合理的监控数据上报时间。

案例:

云监控发现上传下载延迟

2

分析:

  • 这种情况是云监控产品节点发起的探测请求,不能完全代表真实的 OSS 用户,最好能够以真实的业务请求为准,或者真实的客户端在访问发生延迟时,客户端部署抓包看下为什么有延迟。
  • 使用 OSS的日志功能,开始日志后,OSS 的所有者可以自行通过日志进行分析。看下处理时间是否真的有延迟。

案例:

用户自己监控系统发现请求有延迟

4

分析:

有的公司技术支持比较全面自己做了一套监控系统可以监控 OSS公网全链路,但是监控的只是网络传输的时间,可以辅助的去看问题,但是不可全信,当发现有延迟时。

  • 公网的链路无法保证,做好能切到阿里云主机上,使用同 region 的 OSS 域名进行访问比较靠谱,如果有原因不能切到内网,需要进一步再确认。
  • 提供上传延迟的 OSS requestID ,通过这个可以让阿里云查下出现问题的处理时间是否真延迟。
  • 客户端肯定要抓包了,所有网络问题都逃不了抓包,传授一个抓包技巧
  • tcpdump -i <出口网卡> -s0 ( 本机出口IP and OSS域名 ) -w result.pcap

案例:

有效请求率降低
对象存储 OSS (<)Bucket=p2xxx,userId=135114002(>),有效请求率(30.51<90% ),持续时间0分钟>

分析:

请求率规则是 2xx+3xx/总体数量计算出来的,先看下 OSS 控制台的统计 2XX 3XX 以及其他遗产状态码的占比确认是否因为异常状态码增加导致的有效请求率下降。
另外最靠谱的就是自己开通 OSS 的日志随时可以分析请求行为。

案例:

云监控报警 404

对象存储OSS实例:Bucket=xum-ali,userId=19733976745,资源不存在错误请求数于11:45恢复正常,值为30次,持续时间5分钟。
规则详情:报警规则oss_ResourceNotFoundErrorCount,资源不存在错误请求数的5分钟统计值,连续1次满足表达式当前值>30次

分析:

  • 这种问题就是 bucket 资源不存在报警,如果上面的方法都是要自己开通 OSS 日志服务模块来分析,不过这种 404 也是正常的响应,并非是异常状态。

案例:

云监控出现 NoSuchWebSiteConfigration

2

分析:

出现这种问题是客户端在请求 OSS 时加载的功能配置不存所以报错 404 ,是正常请求,不是异常。200 的转状态是用户已经在 OSS 上配置的功能模块,报警人可以忽略这部分的报错信息。

案例:

OSS 控制台 API 统计图无数据

1

分析:

这种情况并不是异常,完成的监控数据都是隔天显示,当前时间是 10.12 ,完整的数据还没有出来,所以不能画点,要等到 13 号才能看到完整的 12 号数据。

案例:

通过 OSS 监控计费账单对比

1

分析:

先了解 OSS 监控

  • 概览看到的当月请求次数有 “GET” 读去类型,和 “PUT” 写类型,“GET” 类型包括了 HEAD GET,“PUT” 类型包含了 PUT、DELETE、POST ,这点高搞清楚。
  • OSS 的监控是云监控的数据有 2-3 小时的延迟,用它和账单计费肯定是不准的。

结论:

准确合理的对账方式通过两种途径:

  • 提前开启 OSS 日志,然后通过 OSS 日志的统计和账单核对。
  • 如果自己不愿意核对日志,可以开启 OSS 的日志分析功能,把 OSS 的日志导入到日志分析处理,直接看结果。

案例:

云监控显示某个时间段的有效请求率下降为 0,但是 OSS 的 log 以及控制台的监控数据都是正常。

image

分析

首先要知道源监控有效请求率的计算是 (2x x+3xx)/总请求数量
发现类似情况观察下 OSS 控制台或者 OSS log 没有异常即可,出现这种问题是因为 OSS 再收敛整个集群日志推送到云监控时超过了云监控的接收窗口期,而云监控不支持补推,所以这块数据调为 0 。

目前 OSS 再 2019-1-1 后对监控数据进行优化可以规避掉这种问题,后续还会持续优化类似场景。

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
|
存储 SQL Prometheus
基于访问日志实现OSS监控
对象存储OSS是阿里云提供的云存储服务,能够以低成本为用户提供高可靠性的海量数据存储服务。作为基础服务,用户需要时刻关注OSS的使用状况,检测异常状态,从而及时作出响应。
|
监控 对象存储 运维
SLS Logstore模拟接入OSS访问日志和主机监控
在使用SLS的过程中,在试用一些功能时,还未接入正式的数据,往往不能很好的体验SLS功能,SLS提供了模拟接入的功能,可以对一些常见类型的日志进行模拟接入,接入后就可以看到一些mock的数据,本文介绍两种常见的模拟接入。
669 0
|
存储 运维 监控
SLS新版告警入门-监控OSS访问日志
在业务中经常会有波峰波谷的现象,使用同一个监控阈值往往不能满足告警需求;基于SLS,可以使用日环比方式,配置SLS新版告警,来监控PV日环比是否有陡增或陡降,比如陡增10%或者陡降10%,会发出告警;本文以此为背景,来讲解如何配置告警并发出通知。
1012 0
|
监控 API 对象存储
OSS 监控
场景:云监控 OSS 出现 "数据不足" 先看下 OSS 控制台的监控的 http code 、以及 QPS 分析,如果 OSS 请求量比较小,而 OSS 对应的时间点有没有请求就会出现数据不足的情况,这种问题最好设置合理的监控数据上报时间。
OSS 监控
|
存储 监控 开发工具
OSS服务监控、诊断和故障排除
相对于传统的软件运行环境,云数据分布式托管环境虽然解决了很多应用业务在基础设施搭建、运维管理等方面的问题和成本困难,使得应用服务搭建的门槛降低,但是其复杂的云环境,也大大增加了对其监控、诊断和故障排查的难度。 若要成功管理运行在云环境中应用程序,需要主动监视其行为,并熟悉如何诊断和排查自己的应用程
32001 0
|
监控 开发工具 对象存储
如何灵活使用OSS监控数据动态调整OSS服务参数
本文的目的是为了提供一种使用OSS监控服务的数据灵活控制OSS服务形态的例子,以方便大家能够举一反三,实现更多的通用方法解决多样的需求。
5092 0
|
监控 对象存储
号外号外~~OSS监控服务上线啦!!
如何让OSS服务质量透明?如何全面、快速掌握服务运行状态?如何更容易自助定位问题? OSS监控服务来了——服务好助手,问题调查神器助你一臂之力!!
24005 0
|
Web App开发 监控 测试技术
如何给你的OSS资源加上监控
OSS日渐成为大家应用和服务的核心存储组件,本文来介绍一下如何通过云监控的简单配置来实现对OSS资源使用量和状态进行监控和报警。
2959 0
|
3月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
2月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
下一篇
无影云桌面