开发者社区> 问答> 正文

一般相对通用的故障快恢SOP是怎样的?

已解决

一般相对通用的故障快恢SOP是怎样的?

展开
收起
甜甜的嘻嘻嘻 2022-08-25 13:01:31 429 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    1.收到故障告警的接口人立即召集团队人员上线,如果是白天就集中办公。

    2.参与故障处理的人员分成3类角色,第1类负责快恢,第2类负责排查,第3类负责信息同步,其中快恢人员要2人以上。这里重点关注快恢人员和信息同步人员的操作。

    3.快恢人员上线后分3路执行止血操作,第1路是重启和扩容,第2路是回滚,第3路是检查上下游依赖。

    ·重启与扩容:如果流量远小于集群容量,那么直接开始分批重启机器,重启成功的机器上问题恢复了的话,在保证容量的前提下将剩余的机器做下线处理;如果流量大于集群容量,或是遇到对流量敏感的故障,那么要先执行限流预案,再执行分批重启,同时进行扩容操作。

    ·回滚:快恢人员通过变更管控系统检查2小时以内是否有应用发布或配置变更的操作,立即停止正在进行中的发布和变更,并且进行回滚。

    ·上下游依赖:快恢人员检查上游来源、下游依赖、DB与Tair、网络与磁盘等,一旦发现是应用以外的问题,立即截图并发送给对应的接口人,并加进故障处理群。截图信息要包含3要素,即时间、地点(应用与容器)、错误(堆栈信息、流量统计等)。

    4.第3步中的3种措施中任意1种令业务指标恢复就是达到了目标,为其他人员排查和根治故障争取到了时间。

    5.负责信息同步的人员在整个恢复过程中,一方面需要向故障群、业务方、高层通报故障处理的进展,以及需要的支持;另一方面,在其他团队的人员加入排查时,提供信息的同步,帮助大家快速进入状态。

    以上内容摘自《云上业务稳定性保障实践白皮书》电子书,点击https://developer.aliyun.com/ebook/download/7712可下载完整版

    2022-08-25 13:16:46
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
作为全球云计算的领先者,阿里云为全球230万企业提供着云计算服务,服务范围覆盖200多个国家和地区。我们致力于为企业、政府等组织机构提供安全可靠的云计算服务,给用户带来极速愉悦的服务体验。
问答排行榜
最热
最新

相关电子书

更多
复杂网络架构下的网络故障智能处理 立即下载
阿里电商故障治理和故障演练实践 立即下载
Session:弹性、高可用、可观测的应用交付网络产品更新 立即下载