作为一个SRE,在资源管控领域,一定要保证自己域有足够的机器,同时又不会浪费太多。我个人的建议是,核心应用,应该控制load在1-1.5左右(日常峰值或A级活动场景下),控制核心应用在10个以内,非核心应用,应该控制load在1.5-2左右(日常峰值或A级活动场景下)。目前集团很多应用load不到1,甚至只有0.几,其实很浪费的。同时,一个团队的SRE,至少随时手上应该握有20%左右的空余额度buffer,方便随时扩容,或者应对新业务增长。这些额度,目前按照集团的预算策略,只要不真的扩容上去,都是不收费的,所以应当持有。除了机器以外,tair、db、消息、精卫等,也要如上操作,除了年初准备好一年的预算,还要额外准备20%左右的buffer。SRE要自己梳理一份资源表,表中一方面要明确有哪些资源,余量多少,另一方面要明确资源的当前水位、压力。比如机器资源,要关注当前机器数、额度、load,如:再比如对数据库资源,要关注数据库的配置、空间、日常和峰值qps、单均访问量(创建一个订单,要读和写DB多少次,这一点很关键):
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。