问题 5:云原生架构对业务安全生产如何应对?
根据“墨菲定律”—— “怀疑一切、任何节点失败都会发生! ” (“Anything that can go wrong will go wrong”) 。云原生应用架构设计原则是,将影响安全生产的潜在“黑天鹅”风 险作为“常态”。
云原生架构的建议是:允许失败发生,确保每个服务器,每个组件都能够在不影响系统的 情况下发生故障并且具备自愈和可替代能力。立即失效(Fail fast and Fail small) 是云原生 系统一个重要的设计原则,它背后的哲学是既然故障无法避免,问题越及早暴露、应用越容易 恢复, 进入生产环境的问题就越少。Fail small 的本质在于控制故障的影响范围——爆炸半径, 关注点将从如何穷尽系统中的问题转移到如何快速地发现和优雅处理失败。
金融级云原生架构来说技术风险亦是重中之重。任何一笔交易处理的差错背后都有 可 能 导 致 不 可 预 计 的 资 金 损 失。 需 要 建 立 一 套 专 业 的 技 术 风 险 体 系(SRE,Site Risk Engineering) ,确保从系统架构平台到风险文化机制,在架构设计、产品开发、变更上线、 稳定性评估到故障定位恢复等等环节,都能全生命周期地确保风险质量控制,对任何系统变更 作兜底保障。