6.1.3 稳定性治理的思考与拓展
当经历几次大型赛事的保障活动后,我们对于稳定性治理就有了进一步的思考:一个是“人”,一个是“时间”。
人:通常来讲,稳定性治理是通过人进行巡检、发现问题并解决问题,这对于人的要求就很高,且可复用性会较差,那么我们是否能将稳定性治理场景化及工具化?
时间:大多数场景下,我们是被动的接收问题和处理问题,系统稳定性风险较大,耗费成本也极大。那么我们能否将动作前置,提前介入进行风险巡检,主动规避风险?
传统的巡检及诊断工具过度依赖工程师的经验以及事后复盘之后的诊断效率,导致开发迭代成本较高、使用风险较大。阿里云根据多年专家诊断以及重大活动重保经验,开发了Apsara1ServiceStack工具箱,其中包括CloudDoc/Advisor/智能诊断等工具。Apsara ServiceStack-CloudDoC是用于风险管理的工具,有三大亮点:
1)前置的资源健康评估,以售后、研发团队多年积累的海量问题特征库为依托。
2)对每个客户自动梳理潜在风险并提供解决方案。
3)让用户可以有机会在问题实际发生之前采取预发措施进行规避,大大提高诊断效率和降低售后人力成本。
针对30类云产品及各种使用特性,Apsara ServiceStack-CloudDoc通过巡检账号下资产各产品各专项的风险项,进行诊断并输出巡检报告。客户可以在任何周期进行风险巡检,并不断修复达到理想的健康评分。
图:Apsara ServiceStack-CloudDoc的诊断能力