【SRE学堂】《OSS从入门到精通》第三章:OSS深度巡检_01细说白屏巡检的方方面面-阿里云开发者社区

开发者社区> 阿里云SRE技术社区> 正文

【SRE学堂】《OSS从入门到精通》第三章:OSS深度巡检_01细说白屏巡检的方方面面

简介: 《OSS从入门到精通》第三章:OSS深度巡检,将分三节为大家讲解,分别为白屏巡检、黑屏巡检及巡检异常案例解析

阿里云
阿里云GTS-平台技术部-SRE混合云TAM赋能团队

通过OSS第一章的学习,大家知道了OSS是什么、OSS的各项优势、OSS的架构组成以及OSS相关的一些基本概念;通过OSS第二章的学习,大家知道了如何创建、查看、删除、修改OSS的存储空间,如何实现object上传、下载、删除的操作;那么在第三章中大家将学习到OSS如何去做深度巡检,包括天基的终态检查、赤骥白屏巡检以及黑屏巡检,讲完这些巡检流程之后会给大家以巡检时发现“单台物理机checkready异常”为例,讲解如何针对这样的问题进行快速的恢复。

1. 天基终态巡检

登录天基页面,然后点击菜单栏的任务,在任务中找到部署概况,然后找到部署详情,在部署详情页面找到oss集群,检查oss集群的终态,如果为“已达终态”则表示正常,如果是“未达终态”则表示异常。可以点击详情查看具体是什么集群、什么服务、什么角色异常。

1.png

图1:天基中查看部署详情


2.png

图2:部署详情中查看oss集群终态

2. 赤骥白屏巡检

1)登录ASO平台,通过ASO的产品运维管理页面,找到OSS赤骥,跳转到OSS赤骥页面。

3.png

图3:ASO中跳转OSS赤骥

2)在OSS赤骥页面找到业务数据,找到集群数据,在集群数据中找到集群概览和库存监控。

  • 集群概览:在集群概览页面需要关注“今日SLA”和最新1小时SLA是否达到了100%,还需要关注今日5xx总数,看它的数据是否为0,如果是个位数也可以直接忽略掉。

    4.png

    图4:OSS赤骥中查看集群概览

  • 库存监控:在库存监控页面中需要关注盘古使用率是否在75%以下。对于盘古来说当它的水位达到90%时将禁止写入,而OSS删除文件时盘古水位会先上升后下降,故75%,是一个比较危险的水位。
    5.png

    图5:OSS赤骥中查看库存监控

那么为什么删除文件时,盘古水位会先上升后下降呢?这便和OSS数据删除流程有关系了,那么具体OSS删除数据的流程请见下列描述:

Lifecycle——gc——merge——KV回收站(72小时)

首先将要删除的文件全部做lifecycle打标——gc(将要删除的文件全部打标)——到merge状态(一个真正清理的流程,它是先将文件copy一份放到KV回收站,再把原来的给删掉,这就是为什么删除文件时,磁盘水位会增加的原因 )——KV回收站(默认保持72小时,超过的删掉之前保存的数据)。

3. 白屏巡检的优势和劣势

3.1 优势

1)不会产生误操作;
2)Web界面形式巡检,简单,方便。

3.2 劣势

1)稳定性低,巡检工具容易出现异常;
2)Web界面图形比较多,网速比较慢时,加载的速度也比较慢。

4. 使用的工具

1)天基(关于本产品的详细使用方式敬请关注SRE学堂的后续内容);

2)ASO(关于本产品的详细使用方式敬请关注SRE学堂后续内容)。

5. 结语

如果您对OSS的内容已经产生了浓厚的兴趣,如果您想更深入地了解OSS产品,如果您还想知道OSS是如何完成黑屏巡检的,敬请期待下期OSS从入门到精通的第三章节的黑屏巡检内容。

image.png

往期内容

《OSS从入门到精通》第二章:OSS使用及常见操作
《OSS从入门到精通》第一章:OSS产品综述

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云智能全球技术服务部SRE团队,是阿里集团高可用基础技术核心缔造团队,也是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队

官方博客
官网链接