SRE团队技术小编-小凌 2020-11-19 641浏览量
阿里云
阿里云GTS-平台技术部-SRE混合云TAM赋能团队
打开天基页面,Project栏搜索OSS,找到集群运维中心,找到oss-chiji-agent,找到chijiAgent,进入到Terminal,进行相应的检查,具体检查内容见后文描述。
图1:天基中查找oss集群
图2:OSS集群机器Terminal
for i in `/apsara/deploy/kuadmin --interactive=false --command=listapp | grep -v :`;do echo ${i}:;/apsara/deploy/ku --interactive=false --command=checkready --appname=$i ;done;
图3:终端中执行命令检查checkready
Lessmin:达不到最小备份数坏盘、宕机会出现;但会自动收敛。
None:有文件丢失,如果需要可以在kv回收站找回。
Onecopy:单备份。
for i in {"lessmin","none","onecopy","lessmax"};do echo "Check $i result:";/apsara/deploy/puadmin fs -abnchunk -t $i;done
图4:终端中执行命令检查abnchunk
/apsara/deploy/mcu gas
观察state是否为4个following同步的和1个leading;观察prepared_id和committed_id是否一致;(如果看到Leading列高一些也正常,因为Leading列一般会快一些,其他的会慢慢拉平)。
图5:终端中执行命令检查kv_master
/apsara/deploy/dsu GetLifecycleStats wellness
查看End Time是否跑完,跑完就是正常时间,否则就是1970年的时间,或者看State状态为STOPPED也可以。
如果没跑完需关注start时间,如果超过24h说明lifecycle清理速度已经赶不上需要删除文件的速度,此时需要增加lifecycle的速度,但是增加速度的同时会增加集群机器性能的压力,所以要合适的增加。
图6:终端中执行命令检查lifecycle
/apsara/deploy/dsu getallgcstats
关注begin时间,同样也是关注是否超过24h;如果有很多未gc,也可以手动执行命令清理:/apsara/deploy/dsu startgc。
图7:终端中执行命令检查gc状态
1) 白屏工具异常时可以使用,稳定性高。
2) 无需加载Web界面上那么多的图形,故显示结果不容易出现延迟。
1) 由于需要人为手动敲命令来进行巡检,故容易产生误操作。
2) 需要人为手动敲命令,麻烦,且命令冗长,不容易记住。
1) 天基(关于本产品的详细使用方式敬请关注SRE课堂的后续内容)。
2) 在terminal中需使用admin用户的身份执行命令。
如果您对OSS的内容已经产生了浓厚的兴趣,如果您想更深入地了解OSS产品,敬请期待下期OSS从入门到精通的第三章节的巡检异常案例解析内容。
《OSS从入门到精通》第三章:OSS深度巡检_01细说白屏巡检的方方面面
《OSS从入门到精通》第二章:OSS使用及常见操作
《OSS从入门到精通》第一章:OSS产品综述
我们是阿里云智能全球技术服务-SRE团队,我们致力成为一个以技术为基础、面向服务、保障业务系统高可用的工程师团队;提供专业、体系化的SRE服务,帮助广大客户更好地使用云、基于云构建更加稳定可靠的业务系统,提升业务稳定性。我们期望能够分享更多帮助企业客户上云、用好云,让客户云上业务运行更加稳定可靠的技术,您可用钉钉扫描下方二维码,加入阿里云SRE技术学院钉钉圈子,和更多云上人交流关于云平台的那些事。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。