• 建立一个围绕稳定状态行为的假说:混沌工程要关注系统在发生不稳定事件时能否正常工作,而不是试图验证系统如何工作。
• 多样化真实世界的事件:
ü 首先,要对真实可能发生的事件进行实验,无需关心不可能发生的事件。
ü 其次,要尽可能多地枚举出系统中可能发生问题的点,发生概率高或已经发生过的事件优先级靠前。
• 在生产环境中运行实验:弹性计算的初期也无法在生产环境中运行实验,原因为系统稳定性不高,且可观测性不佳,在线上注入故障时无法很好地观测影响范围。 比如在代码隔离但数据不隔离的环境中实验时,完全无法测出系统真实的瓶颈点,因为任何微小的改变、任何与线上不同的点都会影响最终结果的准确性。所以我们提倡在生产环境中运行实验,能最大化验证发生问题时系统的表现。
• 持续自动化运行实验:将性能作为回归的一部分,不仅需要功能的回归,还需要自动化的性能回归。
• 最小化爆炸半径:当有足够强大的可观测性之后,要控制演练可能对系统造成的影响。演练的目的应该是验证系统薄弱点,而不是将系统彻底击溃。因此要控制演练范围,将影响降到最小,尽量不对线上用户造成过大影响。"
以上内容摘自《云上自动化运维CloudOps系列沙龙演讲合集》电子书,点击https://developer.aliyun.com/ebook/download/7730可下载完成版
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。