日常环境莫名宕机的处理

简介: ## 背景 11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决) 于是排查了一下系统 down 机的原因 ## 原因 查看内存 setenv.sh 设置 if [ $memTotal -le 2048 ]; then SERVICE_OPTS="${SE

背景

11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决)
于是排查了一下系统 down 机的原因

原因

查看内存 setenv.sh 设置
if [ $memTotal -le 2048 ]; then
SERVICE_OPTS="${SERVICE_OPTS} -Xms1536m -Xmx1536m"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn768m"
else
SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

查看日常机器内存
$cat /proc/meminfo | grep MemTotal
MemTotal: 4194304 kB
image.png

看出问题了吧,我们设置的最大内存是4G,而我们的linux 机器是不会把4G 内存全部分配给应用的。应用在运行过程中,一直会消耗内存,当快达到4G 的时候,应用认为还有可用内存,并不一定会及时 GC。导致内存不足,内存被撑满了,我们的应用也就 down 机了

处理方法

两种方法:

1. 设置jvm 参数为自适应

2. 申请8G 机器

这里我选择方法一

1.拉取新的分支,修改 setenv.sh

Plain Text

# if os memory <= 4G
if [ $memTotal -le 4195 ]; then
  SERVICE_OPTS="${SERVICE_OPTS} -Xms3536m -Xmx3536m"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn1536m"
else
  SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

这里根据我们的环境设置,因为日常其实是4G,线上机器是8G,所以修改只会修改日常环境。

拉取新的镜像

image.png

2、填写刚修改并提交的分支

feature/20181121_3189553_fix_down_1

image.png

3、构建成功后,修改四个环境的镜像地址,达到镜像统一

image.png

FROM reg.docker.alibaba-inc.com/aone-base/logan_down:20181121210347

3、提交代码,日常部署

查看日常、预发机器的内存分配情况
日常已修改成功
image.png

预发

image.png

对预发和线上并无影响

todo
后续观察日常机器是否还会经常 down机
线上和日常环境机器都是8G内存,而我们对系统的设置是4G内存,内存并无合理利用。后续可以考虑调整。

目录
相关文章
|
人工智能 机器人 网络架构
企业实战(1) 服务器断电重启业务异常随笔
企业实战(1) 服务器断电重启业务异常随笔
|
4月前
|
消息中间件 存储 Kafka
【Kafka大揭秘】掌握这些秘籍,让你的消息状态跟踪稳如老狗,再也不怕数据丢失的尴尬时刻!
【8月更文挑战第24天】Kafka作为一个领先的分布式流数据平台,凭借其出色的性能和扩展性广受青睐。为了保障消息的可靠传输与处理,Kafka提供了一系列核心机制:生产者确认确保消息成功到达;消费者位移管理支持消息追踪与恢复;事务性消息保证数据一致性;Kafka Streams的状态存储则适用于复杂的流处理任务。本文将详细解析这些机制并附带示例代码,帮助开发者构建高效稳定的消息处理系统。
51 5
|
Windows
电脑硬件出现故障如何去修理?
电脑硬件出现故障如何去修理?
|
关系型数据库 MySQL 前端开发
|
前端开发 Java Linux
Java服务器宕机解决方法论(上)
Java服务器宕机解决方法论(上)
758 0
Java服务器宕机解决方法论(上)
|
Java 调度
Java服务器宕机解决方法论(下)
Java服务器宕机解决方法论(下)
380 0
|
Python
PYTHON莫名其妙的崩溃
PYTHON莫名其妙的崩溃
134 0
|
Linux
Linux服务器宕机案例第二则
邮件告警发现海外工厂一Linux服务器连接不上,DPA(Database Performance Analyzer)系统也发现其出现问题,ping这台服务器发现网络不通,联系不到当地系统管理员,邮件咨询后,这个系统管理员也发现有问题,直接重启了,事后检查发现日志message里面,从10:1...
1602 0
|
Java 关系型数据库 应用服务中间件
线上运行的Java应用出故障了!我慌得一匹!
线上运行的Java应用突然没有响应、响应缓慢,进程突然消失,遇到这些情况应该如何应对呢? 今天教大家如何应对在线故障! 欢迎工作...
1457 0
|
索引 安全 搜索推荐
服务器宕机可能的原因以及服务器宕机解决办法
服务器宕机可能的原因以及服务器宕机解决办法 服务器宕机是指服务器因为某些原因而导致服务器无法运转,造成网络无法正常使用。 对于网站来说,服务器宕机所造成影响很大,它不但造成访客无妨对网站进行访问,甚至还可能影响到网站在搜索引擎上的收录和排名, 因而在租用服务器时,建议站长选择想美国服务器这种出现宕机概率比较低的服务器。
4297 0