项目实战典型案例11——生产环境重大事故

简介: 项目实战典型案例11——生产环境重大事故

生产环境重大事故

一:背景介绍

对于arpro这个项目。生产环境上布置了两套环境,一套A环境,一套B环境。

这样做的意义是如果线上A环境出现意料之外的问题(A环境大面积崩溃不可用,A环境服务器出现问题等等)我们能够立即切换B环境供用户进行使用。
A环境与B环境是完成一致的。


这一次arpro生产环境出现好几个重大的问题。


1.生产A环境没有及时进行构建,导致生产A环境与生产B环境版本不一致

2.禅道上2022年5月1日的发版日志没有关联需求,导致发版流程上出现疏漏,会影响此后的发版流程。

3.B环境构建异常,没有及时进行处理,导致将影响项目的及时发版。

4.目前线上运行的是B环境,实际应该运行A环境;没有及时做升级的切换。

5.系统跑一段时间,内容占用会随时间的增加而剧增;大约在一周左右时间内存会达到系统不可用(这里的一周时间说的是现在的业务量,可能随着业务量的增加时间会缩短)




二:思路&方案

上面问题1—4都是偏向于生产发版的问题 ,问题5偏向于技术问题。

对于上面的五个问题,我们都需要清楚生产环境不是儿戏需要有足够的责任心。需要对生产环境有一份敬畏之心。

对于问题1-4的思路&方案

在明确生产环境有两套环境的价值和意义;生产环境的重要性的基础上。

流程制度上

  1. 有严格的上线流程,完成一项勾选一项
  2. 有严格的上线审批流程,审批通过之后才能进行后续的上线操作
  3. 有严格的闭环流程(如环境检测,上线后的测试)
  4. 只有具有一定职级的人可以操作生产环境的构建

上线流程示例:




对于问题5的思路&方案

一般的原因是代码中存在不合理的情况,导致创建出了大对象,对象一直存在着引用导致GC无法进行回收,随着时间这些无法被回收的对象越来越多导致内存逐渐上升。


对于这类问题需要具体分析可以通过打印jvm快照的方式生成
dump文件,可以使用jdk1.8自带的内存分析工具Jvisual进行内存分析。寻找照成内存上升的原因。

四:总结

  1. 对生产环境有一份敬畏之心
  2. 通过一定的形式来保证内容
  3. 通过划分角色来进行权限隔离
目录
相关文章
|
7月前
|
机器学习/深度学习 SQL 分布式计算
Spark核心原理与应用场景解析:面试经验与必备知识点解析
本文深入探讨Spark核心原理(RDD、DAG、内存计算、容错机制)和生态系统(Spark SQL、MLlib、Streaming),并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作,帮助读者准备面试,同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。
642 0
|
5月前
|
SQL 存储 安全
SQL数据库:核心原理、应用实践与未来展望
在电子商务领域,SQL数据库用于存储商品信息、用户信息、订单信息等。通过SQL数据库,电商平台可以实现商品的快速检索、用户行为的跟踪分析、订单状态的实时更新等功能,提升用户体验和运营效率。
|
6月前
|
数据采集 存储 监控
构建高效爬虫系统:设计思路与案例分析
构建高效爬虫系统涉及关键模块如爬虫引擎、链接存储、内容处理器等,以及用户代理池、IP代理池等反反爬策略。评估项目复杂性考虑数据规模、网站结构、反爬虫机制等因素。案例分析展示了电子商务价格比较爬虫的设计,强调了系统模块化、错误处理和合规性的重要性。爬虫技术需要不断进化以应对复杂网络环境的挑战。
142 1
|
7月前
|
存储 前端开发 JavaScript
从前端到后端:构建全栈应用的关键技术探究
在当今互联网时代,全栈开发已经成为了越来越多开发者的追求目标。本文将深入探讨从前端到后端构建全栈应用所需的关键技术,涵盖了前端框架选择、后端语言与框架、数据库设计以及前后端通信等方面,帮助读者全面了解全栈开发的必备技能和工具。
|
人工智能 运维 监控
在日常开发工作中,日志数据该如何利用?
在日常开发工作中,日志数据是一个宝贵的资源,它可以提供关于应用程序运行状态、错误报告、性能指标和用户行为等方面的重要信息。正确地利用和分析日志数据可以帮助开发人员更好地理解应用程序的运行情况,快速定位和解决问题,改进应用程序的性能,并为业务决策提供有力支持。尤其是在现代科技发展的背景下,日志数据作为一种重要的信息资源,对于运维工作具有极大的价值。然而,如何充分利用日志数据,并将其应用于运维和开发工作中,仍然是许多企业和运维和开发人员关注的问题。那么本文就来分享一下在日常开发中关于日志数据的利用方面的探讨。
300 1
在日常开发工作中,日志数据该如何利用?
【项目实战典型案例】11.生产环境的重大事故
【项目实战典型案例】11.生产环境的重大事故
|
测试技术
【项目实战典型案例】10.对生产环境以及生产数据的敬畏
【项目实战典型案例】10.对生产环境以及生产数据的敬畏
|
存储 负载均衡 应用服务中间件
项目实战典型案例17——环境混用来带的影响
项目实战典型案例17——环境混用来带的影响
97 0
|
安全
项目实战典型案例19——临时解决方案和最终解决方案
项目实战典型案例19——临时解决方案和最终解决方案
156 0
|
存储 应用服务中间件 测试技术
【项目实战典型案例】17.环境混用带来的影响
【项目实战典型案例】17.环境混用带来的影响