•架构设计准则-我们认为所有的架构都是不完美的, 都存在缺陷, 因此我们在 做业务架构设计时都必须要考虑服务稳定性保障,如负载均衡、多点容灾、集群化服务、数据多活等能力;
•SRE前置准则-在业务立项之初,SRE角色需要提前介入,将运营阶段可能出 现的问题或风险提前在架构设计、编码阶段暴露,提前准备好解决方案,甚至规避问题与风险;
•混沌实验准则-故障不可避免, 为何不让其在测试或预发布环境提前到来, 通 过模拟现网真实故障来验证服务的“韧性”,找出系统的弱点,同时验证我们的监控告警的有效性,在MTBF阶段实施最好不过,也是我们其中一把利器;
•可观测性准则-通过采集业务指标、日志、追踪等数据,快速分析与定位问 题,同时发现复杂系统的瓶颈点,在很长一段时间内,业务指标、日志、追踪的采集 与应用,都是独立存在并分开建设,随着时间的推移,发现这三者是相互关联,相辅相成的,是我们的第二把利器;
•全链路压测准则-通过与可观测性、混沌实验能力的深度整合, 实现模拟真实 业务环境全链路压测,达到业务上线前的精准资源评估,主动发现潜在性能、版本缺陷等问题,是我们的第三把利器;
•DevOps交付准则-通过打造高效的价值交付链,覆盖CI、CD、CO服务全生命 周期运营管理,CI我们采用ODP封装蓝盾方案,CD 与 CO 采用蓝鲸运维编排及监控告警等能力,SRE会将大分部精力聚焦在CO环节;
•故障应急准则 - 故障不可避免,我们能做的是不断去提升MTBF,降低MTTR,包括事前的实施大量混沌实验、故障预案;事中采用打造的工具链,快速发现、分析、定位与解决问题;事后组织总结复盘,沉淀案例经验;
•SRE学习准则-营造学习的文化,目的是实现多个不同职能团队的有机融合, 相互了解大家面临的问题或挑战,形成一致的目标,达到有效的协同,解决业务。