金融业务系统生产故障有较多都源于变更,变更管控对技术风险防控而言至关重要。特别 是在微服务分布式架构下, 服务规模巨大, 变更来源广泛, 如变更没有很强的管控、追踪能力, 一旦线上发生问题,依赖人工追根溯源很难第一时间快速找到对应的变更,变更本身的质量也 很难有效控制,这就需要有一套基于云原生架构的“技术风险防控体系”,来进行全链路的风 险和变更管控。
技术风险防控的核心指导原则是“变更三板斧”:可观测、可灰度、可应急。任何变更都 需要在执行前部署好可观测能力,用于评判预期内的效果,识别预期外的问题,用于指导进一 步扩大变更范围和决策应急处置动作。“可灰度”强调的是变更需要逐步扩大范围,从地域、 数据中心、环境、服务器、用户、时间等多个维度去设计灰度过程。“可应急”强调的是变更 方案要优先保障可回退能力,一些变更由于情况特殊,不一定具备可回退能力或者回退代价无 法接受,这就需要通过追加其他变更来处置,比如数据订正、新版本上线等。“变更三板斧” 也是金融云原生架构下变更风控的核心能力,金融级云原生架构需要在变更流程设计和运维平 台执行过程中强制约束了可“灰度”的落地,同时通过可观测能力的整合,在变更过程中建设 一些熔断、自愈能力。
“全链路风险防控体系”的核心职责是通过整合所有变更信息, 使变更可见、更可追溯。 同时,提供变更编排、变更灰度检查、变更预检、变更结果监控预警等能力,当出现问题时 通过提供变更关联来加快线上问题处理速度。
此外, 全链路风险防控体系还需要能够产出资损风险点分析, 制订防控措施, 明确预案细节; 在质量测试分析阶段要进行资金验证的测试分析。发布前要再次评估风险,检查资损防控措施 是否实施完成,包括实时核对、 T + M 分钟级核对、 T + H 小时级核对、 T +1 隔日核对等多 维度布防, 并“责任到人”订阅核对预警, 同时业务方对资金流要进行完整的验收。通过证证、 证账、账账、账实等核对模式进行资金流操作。