【SRE学堂】《OSS从入门到精通》第三章:OSS深度巡检_02快速吃透黑屏巡检那些事儿-阿里云开发者社区

开发者社区> 阿里云SRE技术社区> 正文

【SRE学堂】《OSS从入门到精通》第三章:OSS深度巡检_02快速吃透黑屏巡检那些事儿

简介: 《OSS从入门到精通》第三章:OSS深度巡检,将分三节为大家讲解,分别为白屏巡检、黑屏巡检及巡检异常案例解析。

阿里云
阿里云GTS-平台技术部-SRE混合云TAM赋能团队

1. 进入黑屏Terminal

打开天基页面,Project栏搜索OSS,找到集群运维中心,找到oss-chiji-agent,找到chijiAgent,进入到Terminal,进行相应的检查,具体检查内容见后文描述。

1.png

图1:天基中查找oss集群


1111.png

图2:OSS集群机器Terminal

2. 检查checkready是否都为YES

for i in `/apsara/deploy/kuadmin  --interactive=false --command=listapp | grep -v :`;do echo ${i}:;/apsara/deploy/ku  --interactive=false --command=checkready --appname=$i ;done;

3.png

图3:终端中执行命令检查checkready

3. 检查abnchunk是否有lessmin、none以及onecopy

Lessmin:达不到最小备份数坏盘、宕机会出现;但会自动收敛。
None:有文件丢失,如果需要可以在kv回收站找回。
Onecopy:单备份。

for i in {"lessmin","none","onecopy","lessmax"};do echo "Check $i result:";/apsara/deploy/puadmin fs -abnchunk -t $i;done

4.png

图4:终端中执行命令检查abnchunk

4. 检查kv_master状态

/apsara/deploy/mcu gas

观察state是否为4个following同步的和1个leading;观察prepared_id和committed_id是否一致;(如果看到Leading列高一些也正常,因为Leading列一般会快一些,其他的会慢慢拉平)。

5.png

图5:终端中执行命令检查kv_master

5. 检查lifecycle策略是否正常工作

/apsara/deploy/dsu GetLifecycleStats wellness

查看End Time是否跑完,跑完就是正常时间,否则就是1970年的时间,或者看State状态为STOPPED也可以。
如果没跑完需关注start时间,如果超过24h说明lifecycle清理速度已经赶不上需要删除文件的速度,此时需要增加lifecycle的速度,但是增加速度的同时会增加集群机器性能的压力,所以要合适的增加。

6.png

图6:终端中执行命令检查lifecycle

6. 执行命令检查GC状态

/apsara/deploy/dsu getallgcstats

关注begin时间,同样也是关注是否超过24h;如果有很多未gc,也可以手动执行命令清理:/apsara/deploy/dsu startgc。

7.png

图7:终端中执行命令检查gc状态

7. 黑屏巡检的优势和劣势

7.1 优势:

1) 白屏工具异常时可以使用,稳定性高。
2) 无需加载Web界面上那么多的图形,故显示结果不容易出现延迟。

7.2 劣势:

1) 由于需要人为手动敲命令来进行巡检,故容易产生误操作。
2) 需要人为手动敲命令,麻烦,且命令冗长,不容易记住。

8. 使用的工具

1) 天基(关于本产品的详细使用方式敬请关注SRE课堂的后续内容)。
2) 在terminal中需使用admin用户的身份执行命令。

9. 结语

如果您对OSS的内容已经产生了浓厚的兴趣,如果您想更深入地了解OSS产品,敬请期待下期OSS从入门到精通的第三章节的巡检异常案例解析内容。

image.png

往期内容

《OSS从入门到精通》第三章:OSS深度巡检_01细说白屏巡检的方方面面
《OSS从入门到精通》第二章:OSS使用及常见操作
《OSS从入门到精通》第一章:OSS产品综述

我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云智能全球技术服务部SRE团队,是阿里集团高可用基础技术核心缔造团队,也是阿里为确保客户平台稳定、业务连续而打造的核心支撑团队

官方博客
官网链接