28个案例问题分析---11---生产环境事故带来的思考--事故

简介: 28个案例问题分析---11---生产环境事故带来的思考--事故

背景

为了防止上线出现错误,我们的项目准备了A,B,两套环境。两套环境依次进行上线,如果上线出现问题的话,第一时间进行环境切换以免造成问题。但是初期的时候,使用两个环境的过程中由于人为的原因出现了很多问题。


1.生产环境A,没有及时进行构建

2.2022年5月1日发版日志没有关联需求

3.B环境构建异常,没有及时处理

4.线上运行的是B环境,实际应该运行A环境。

5.系统跑一段时间,内存占用随着时间增加而剧增,大约一周左右时间内存到达不可用。

改进

其实上文所述,前四个问题都是可以从流程上进行避免的。虽然人做事一定会出错,但是我们可以通过制度进行管理。

例如:上线流程清单

通过统一的流程清单,对整个过程做好管理,尽量避免发生上述所说问题。

总结

做事的时候,必须从全局出发,有了全局去指导微观才能避免出现低级错误。人+制度+机器,更好的管理我们的流程

目录
相关文章
|
6月前
|
SQL 关系型数据库 MySQL
(十八)MySQL排查篇:该如何定位并解决线上突发的Bug与疑难杂症?
前面《MySQL优化篇》、《SQL优化篇》两章中,聊到了关于数据库性能优化的话题,而本文则再来聊一聊关于MySQL线上排查方面的话题。线上排查、性能优化等内容是面试过程中的“常客”,而对于线上遇到的“疑难杂症”,需要通过理性的思维去分析问题、排查问题、定位问题,最后再着手解决问题,同时,如果解决掉所遇到的问题或瓶颈后,也可以在能力范围之内尝试最优解以及适当考虑拓展性。
430 3
|
6月前
|
运维 监控 程序员
Go 服务自动收集线上问题现场
Go 服务自动收集线上问题现场
|
开发者
老板叫我写个APP自动化--准备阶段--02环境错误怎么办
老板叫我写个APP自动化--准备阶段--02环境错误怎么办
85 0
|
运维 监控 前端开发
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
|
机器人 vr&ar
案例19-生产事故临时解决和最终解决方案
生产事故临时解决和最终解决方案
212 0
案例19-生产事故临时解决和最终解决方案
|
数据安全/隐私保护
28个案例问题分析---10---对生产环境的敬畏--生产环境
28个案例问题分析---10---对生产环境的敬畏--生产环境
147 0
|
前端开发 NoSQL Redis
28个案例问题分析---012---发送调查问卷逻辑优化--代码优化
28个案例问题分析---012---发送调查问卷逻辑优化--代码优化
86 0
|
前端开发 应用服务中间件 nginx
28个案例问题分析---028---生产环境nginx限制上传大小--代码优化
28个案例问题分析---028---生产环境nginx限制上传大小--代码优化
99 0
|
消息中间件 运维 监控
线上踩坑记:项目中一次OOM的分析定位排查过程!
线上踩坑记:项目中一次OOM的分析定位排查过程!
|
fastjson Java
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!
176 0
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!