日常环境莫名宕机的处理

简介: ## 背景 11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决) 于是排查了一下系统 down 机的原因 ## 原因 查看内存 setenv.sh 设置 if [ $memTotal -le 2048 ]; then SERVICE_OPTS="${SE

背景

11.21 早上 pd 给讲法务评审的时候,操作日常环境,莫名就 down 机了,而且 pd 反馈经常会这样。(ps : pd 反馈系统请求时间过长,性能很差,后续也会排查解决)
于是排查了一下系统 down 机的原因

原因

查看内存 setenv.sh 设置
if [ $memTotal -le 2048 ]; then
SERVICE_OPTS="${SERVICE_OPTS} -Xms1536m -Xmx1536m"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn768m"
else
SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

查看日常机器内存
$cat /proc/meminfo | grep MemTotal
MemTotal: 4194304 kB
image.png

看出问题了吧,我们设置的最大内存是4G,而我们的linux 机器是不会把4G 内存全部分配给应用的。应用在运行过程中,一直会消耗内存,当快达到4G 的时候,应用认为还有可用内存,并不一定会及时 GC。导致内存不足,内存被撑满了,我们的应用也就 down 机了

处理方法

两种方法:

1. 设置jvm 参数为自适应

2. 申请8G 机器

这里我选择方法一

1.拉取新的分支,修改 setenv.sh

Plain Text

# if os memory <= 4G
if [ $memTotal -le 4195 ]; then
  SERVICE_OPTS="${SERVICE_OPTS} -Xms3536m -Xmx3536m"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn1536m"
else
  SERVICE_OPTS="${SERVICE_OPTS} -Xms4g -Xmx4g"
  SERVICE_OPTS="${SERVICE_OPTS} -Xmn2g"
fi

这里根据我们的环境设置,因为日常其实是4G,线上机器是8G,所以修改只会修改日常环境。

拉取新的镜像

image.png

2、填写刚修改并提交的分支

feature/20181121_3189553_fix_down_1

image.png

3、构建成功后,修改四个环境的镜像地址,达到镜像统一

image.png

FROM reg.docker.alibaba-inc.com/aone-base/logan_down:20181121210347

3、提交代码,日常部署

查看日常、预发机器的内存分配情况
日常已修改成功
image.png

预发

image.png

对预发和线上并无影响

todo
后续观察日常机器是否还会经常 down机
线上和日常环境机器都是8G内存,而我们对系统的设置是4G内存,内存并无合理利用。后续可以考虑调整。

目录
相关文章
|
关系型数据库 MySQL 前端开发
|
存储 缓存 NoSQL
Redis持久化锦囊在手,再也不会担心数据丢失了
大家好,我是小羽。Redis 的读写都是在内存中进行的,所以它的性能高。而当我们的服务器断开或者重启的时候,数据就会消失,那么我们该怎么解决这个问题呢?其实 Redis 已经为我们提供了一...
398 0
Redis持久化锦囊在手,再也不会担心数据丢失了
|
前端开发 Java Linux
Java服务器宕机解决方法论(上)
Java服务器宕机解决方法论(上)
762 0
Java服务器宕机解决方法论(上)
|
Java 调度
Java服务器宕机解决方法论(下)
Java服务器宕机解决方法论(下)
385 0
|
Python
PYTHON莫名其妙的崩溃
PYTHON莫名其妙的崩溃
136 0
|
Linux
Linux服务器宕机案例第二则
邮件告警发现海外工厂一Linux服务器连接不上,DPA(Database Performance Analyzer)系统也发现其出现问题,ping这台服务器发现网络不通,联系不到当地系统管理员,邮件咨询后,这个系统管理员也发现有问题,直接重启了,事后检查发现日志message里面,从10:1...
1610 0
|
索引 安全 搜索推荐
服务器宕机可能的原因以及服务器宕机解决办法
服务器宕机可能的原因以及服务器宕机解决办法 服务器宕机是指服务器因为某些原因而导致服务器无法运转,造成网络无法正常使用。 对于网站来说,服务器宕机所造成影响很大,它不但造成访客无妨对网站进行访问,甚至还可能影响到网站在搜索引擎上的收录和排名, 因而在租用服务器时,建议站长选择想美国服务器这种出现宕机概率比较低的服务器。
4312 0
|
安全 搜索推荐 数据安全/隐私保护
网站被挂马实用如何解决的办法
最近单位网站在百度搜索点击打开都是黄色的,而直接输入网址反而没问题,在百度搜索中被提示为网站被黑的可能,很多客户搜索我们网站都进入了黄色网站,给公司的形象造成了很大的影响,作为公司的网站技术人员,以前也算是搞了5年的老站长了,什么事没惊着,从头开始分析网站被黑的原因。
1793 0
|
安全 搜索推荐 数据安全/隐私保护
网站被挂马实用怎么解决的办法之一
 最近单位网站在百度搜索点击打开都是黄色的,而直接输入网址反而没问题,在百度搜索中被提示为网站被黑的可能,很多客户搜索我们网站都进入了黄色网站,给公司的形象造成了很大的影响,作为公司的网站技术人员,以前也算是搞了5年的老站长了,什么事没惊着,从头开始分析网站被黑的原因。
1558 0
|
Windows 网络协议 安全
对电脑假死现象的修复
解决电脑假死现象 操作步骤 1.先升级机子上的杀毒程序,进行全盘查杀,确保无病毒因素的干扰。 2.点击开始--运行,输入msconfig,进入系统配置界面,把不必要的服务以及启动项关闭,然后重启电脑。
1335 0