28个案例问题分析---11---生产环境事故带来的思考--事故

简介: 28个案例问题分析---11---生产环境事故带来的思考--事故

背景

为了防止上线出现错误,我们的项目准备了A,B,两套环境。两套环境依次进行上线,如果上线出现问题的话,第一时间进行环境切换以免造成问题。但是初期的时候,使用两个环境的过程中由于人为的原因出现了很多问题。


1.生产环境A,没有及时进行构建

2.2022年5月1日发版日志没有关联需求

3.B环境构建异常,没有及时处理

4.线上运行的是B环境,实际应该运行A环境。

5.系统跑一段时间,内存占用随着时间增加而剧增,大约一周左右时间内存到达不可用。

改进

其实上文所述,前四个问题都是可以从流程上进行避免的。虽然人做事一定会出错,但是我们可以通过制度进行管理。

例如:上线流程清单

通过统一的流程清单,对整个过程做好管理,尽量避免发生上述所说问题。

总结

做事的时候,必须从全局出发,有了全局去指导微观才能避免出现低级错误。人+制度+机器,更好的管理我们的流程

相关文章
28个案例问题分析---10---对生产环境的敬畏--生产环境
28个案例问题分析---10---对生产环境的敬畏--生产环境
151 0
28个案例问题分析---012---发送调查问卷逻辑优化--代码优化
28个案例问题分析---012---发送调查问卷逻辑优化--代码优化
86 0
MySQL大无语事件:一次生产环境的死锁事故,看看我怎么排查
今天要分享的是在生产环境中出现的一次算得上比较诡异的死锁事件, 不过庆幸的是没有产生较大的业务损失.
线上解决问题分析
昨天公司的服务器升级硬件,只升级了CPU和 内存,然后重启过后,线上运行的东西就运行不了,查了一下,所有端口和服务有没有开放,防火墙那些,结果发现端口和服务,防火墙允许的端口都开了 还是运行不了,带到晚上10点,突然有一个哥们说了一句,要不把防火墙关了试一下,结果就好了,忘了查看防火墙信息 目前...
992 0
软件测试面试题:自动化遇到用例fail掉如何排查故障?
软件测试面试题:自动化遇到用例fail掉如何排查故障?
152 0
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!
176 0
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!
(十八)MySQL排查篇:该如何定位并解决线上突发的Bug与疑难杂症?
前面《MySQL优化篇》、《SQL优化篇》两章中,聊到了关于数据库性能优化的话题,而本文则再来聊一聊关于MySQL线上排查方面的话题。线上排查、性能优化等内容是面试过程中的“常客”,而对于线上遇到的“疑难杂症”,需要通过理性的思维去分析问题、排查问题、定位问题,最后再着手解决问题,同时,如果解决掉所遇到的问题或瓶颈后,也可以在能力范围之内尝试最优解以及适当考虑拓展性。
443 3

热门文章

最新文章