28个案例问题分析---11---生产环境事故带来的思考--事故

简介: 28个案例问题分析---11---生产环境事故带来的思考--事故

背景

为了防止上线出现错误,我们的项目准备了A,B,两套环境。两套环境依次进行上线,如果上线出现问题的话,第一时间进行环境切换以免造成问题。但是初期的时候,使用两个环境的过程中由于人为的原因出现了很多问题。


1.生产环境A,没有及时进行构建

2.2022年5月1日发版日志没有关联需求

3.B环境构建异常,没有及时处理

4.线上运行的是B环境,实际应该运行A环境。

5.系统跑一段时间,内存占用随着时间增加而剧增,大约一周左右时间内存到达不可用。

改进

其实上文所述,前四个问题都是可以从流程上进行避免的。虽然人做事一定会出错,但是我们可以通过制度进行管理。

例如:上线流程清单

通过统一的流程清单,对整个过程做好管理,尽量避免发生上述所说问题。

总结

做事的时候,必须从全局出发,有了全局去指导微观才能避免出现低级错误。人+制度+机器,更好的管理我们的流程

目录
相关文章
|
运维 监控 安全
应急实战 | 记一次日志缺失的挖矿排查
应急实战 | 记一次日志缺失的挖矿排查
192 0
|
开发者
老板叫我写个APP自动化--准备阶段--02环境错误怎么办
老板叫我写个APP自动化--准备阶段--02环境错误怎么办
74 0
|
域名解析 网络协议 网络安全
网络 | 排错五大步骤,没有解决不了的网络故障准达信息准达信息
网络 | 排错五大步骤,没有解决不了的网络故障准达信息准达信息
100 0
|
运维 监控 前端开发
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
记一次线上 bug 的排查分析过程及总结
|
安全 druid Java
【紧急】Apache Log4j任意代码执行漏洞安全风险升级修复教程
近期一个 Apache Log4j 远程代码执行漏洞细节被公开,攻击者利用漏洞可以远程执行代码。经过分析,该组件存在Java JNDI注入漏洞,当程序将用户输入的数据进行日志,即可触发此漏洞,成功利用此漏洞可以在目标服务器上执行任意代码。
361 1
|
机器人 vr&ar
案例19-生产事故临时解决和最终解决方案
生产事故临时解决和最终解决方案
181 0
案例19-生产事故临时解决和最终解决方案
|
数据安全/隐私保护
28个案例问题分析---10---对生产环境的敬畏--生产环境
28个案例问题分析---10---对生产环境的敬畏--生产环境
123 0
|
前端开发 NoSQL Redis
28个案例问题分析---012---发送调查问卷逻辑优化--代码优化
28个案例问题分析---012---发送调查问卷逻辑优化--代码优化
69 0
|
存储 Prometheus Kubernetes
人为惨案之kube-controller-manager 不断重启根因溯源
2023年4月21日10:38:07,在集群中测试RBAC的时候,在kuboard的界面神出鬼没的删除了几个clusterRole。练习一个CKA的练习题目.
594 0
|
fastjson Java
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!
161 0
我就往代码加了一行 log 日志,结果引发了 P1 级线上事故。。大家注意!