6.2.3 冬奥重保--风险巡检
整体的风险巡检的逻辑分为产品和场景两部分。
产品方面,当前我们的各产品方已经有了各类巡检平台,针对不同产品特性及潜在风险,我们可以进行巡检项的配置。比如针对ECS产品,我们的可配置项有以下
•单机容错能力 & 共享型实例风险。
•禁止资源腾挪类热迁移。
•rlock资源预留。
•实例打散度确认。
•ECS实例所在宿主机风险巡检。
对于数据库产品的巡检,可以参考如下的脑图:
图:数据库监控巡检项
针对不同的业务场景,Aspara ServiceStack-CloudDoc也可以针对对应的场景进行场景化针对性巡检并输出相应报告及修复建议,例如:
高可用:负载均衡后端单点风险,CDN单源站风险,多VM聚集在同一底层宿主机风险等等。
安全:公网暴露IP地址DDOS风险。
数据冗余:ECS快照冗余风险、MySQL数据备份风险。
性能:ECS共享实例争抢风险、RDS共享实例争抢风险。
同时在这期间定制化输出了开发SLB挂载机器跨可用区检测能力,定制增加异常事件、优化建议、优化SQL等能力,经过冬奥会的实践,我们反向增强了Aspara ServiceStack-CloudDoc巡检工具的能力。
图:Aspara ServiceStack-CloudDoc巡检报告封面
《云上大型赛事保障白皮书》——第六章 云产品稳定性治理与风险管控——6.2 北京冬奥稳定性治理实践——6.2.3 冬奥重保--风险巡检(2): https://developer.aliyun.com/article/1226138?groupCode=supportservice