Java服务器宕机解决方法论(下)

简介: Java服务器宕机解决方法论(下)

3 线程锁死/无限等待

  • 表现
    系统无法访问时,当前cpu占用非常低

使用 jstack命令输出线程堆栈即可

jstack pid >> 1.txt
or
jstack -F pid >> 1.txt

都行,或者用jprofiler工具看堆栈,或者其他任何可以拿到堆栈的工具都可以, java的堆栈就是java方法调用的路径,可以定位一些简单的问题

4 内存溢出

  • 现象
    CPU全部占满,内存达到配置Xmx最大值

4.1 CPU占满缘由

并不是 CPU 不够用,而是涉及到JVM的GC 机制,大部分情况来说CPU都是过剩的

JVM 使用GC的方法来回收没有被引用的内存块,在当前的回收机制中,回收器是并发进行的,回收的线程个数有一个公式:

当CPU核心数

  • 小于8
    1个核心对应一个gc线程
  • 大于8
    gc的线程数= 8 + ((N - 8) * 5/8)

N代表核心的数量,这是默认的gc线程创建公式

threads = N <= 8 ? N : (8 + ((N - 8) * 5/8))

当然也可以通过参数 -XX:ParallelCMSThreads=20 来配置 GC 线程数,就不会使用默认的设置,默认情况下不要调整,因为调了也没什么卵用,最多在宕机的时候cpu占用按照你设定的值来。


当发生内存溢出的时候,或者快要内存溢出的时候,不一定是内存溢出,JVM 发现内存不够了,就会 GC,所有线程开始工作,暂停 JVM 运行,开始回收,如果回收到内存了,ok,jvm可以正确继续执行,


这也就是为什么有时候配置内存溢出的参数没有自动生成dump的原因,因为他能运行,但是比较慢,所以没有OOM,就不会生成dump,


如果没有回收到什么内存,gc会循环持续执行,这就导致了cpu全部占满的现象,所以说内存溢出的时候,一定伴随cpu占满(按照设置或者公式计算的线程量)

4.2 JVM内存分配机制

在说说JVM怎么分配内存的,大家都知道给客户配置Xmx参数和xms参数,Xmx代表的是最大堆内存,xms代表的是最小堆内存,至于permsize就和这些都没有关系,不能算在内存溢出,遇到抛错outofmemory permsize什么的调大就行了


permsize是一个被jvm也抛弃的参数只存在1.7之前的jdk中,是用来保存java的class等内容的存储空间,1.8被metaspace替代


这个内存怎么不回收的啊,一问都是在任务管理器看的!这个地方是看不到内存回收的,或者说他也会回收,但是可能要等个好几天才会回收一次,可以忽略这种机制的存在

形而上学

WC 论

如果把内存比喻成茅坑,操作系统64g内存就是一共64个茅坑,那么JVM的内存回收相当于茅坑调度系统,每个gc线程相当于调度系统派出去的茅坑检查员,给jvm设置了 Xms=2g, Xmx=32g,那么程序启动,jvm直接占了两个茅坑,任务管理器看到内存占用2g,即使没人上厕所,JVM也不会把坑还给操作系统。


假设一个人上厕所10秒,一开始的时候 20秒有一个人来上厕所,那么 jvm通过茅坑检查员发现哎两个坑总有一个是空的,维持茅坑数量不变,内存的占用一直是2g,过了些时候,来的人开始增多了,变成5秒有一个人来上厕所,茅坑检查员向JVM汇报有人开始有排队了,两个坑位很紧张,不行要多弄几个坑才行,于是,jvm向系统又申请了两个坑,任务管理器可以看到内存占用变成了4个G,这时候又突然发生压力增大,变成了1秒来一个人,4个坑肯定不够啊,于是jvm又把内存扩容到10-11g,现在够用了,任务管理器会看到内存一直维持在10-11g,终于大家都上完厕所了,没人排队了,茅坑都空出来了。

但是,jvm是个霸道总裁,被他占的东西,除非死不然不会吐出来的,所以任务管理器里面看到内存还是10-11g不会降低,除非jvm死了,实际没有任何内存占用(所以不要再说内存不回收的问题,这个内存的回收不回收和宕机是没有直接关系的)


如果这时候突然一下子来了很多很多人,比如一下子来了64个人要上厕所,这时候会怎样了,JVM把他的所有的茅坑检查员都派出去检查啊,然后发现完蛋了茅坑不够用啊,申请到32个都不够用啊,于是jvm的特派茅坑检查员就一个坑一个坑的拍,一个坑一个坑的催,结果呢,检查员在催,大家就拉不出来了,上厕所的时间无限期延长,外面的人要进去,里面的人出不来,BOOM,厕所就不响应了,后面来的人都拉裤子了。


怎么解决?

  • 换个茅坑管理员,更好的调度茅坑检查员和分配茅坑,这就有了G1回收器 ,茅坑越多效果越好,目前JDK情况内存大于10G的情况G1的效果好于CMS,低于10G的情况下不如CMS
  • 从源头控制人员,不要一下子来这么多人(申请内存),也就是常见的不要让业务查大量数据占内存。

而上面讲的线程锁死的情况要做类比的话,就是32个坑呗32个人占了,还死活不肯出来,导致后面排队的人失去响应了。

没有味道的比喻

解释一下java的面向对象和对象引用:

一栋大楼,10层共1000个工位 (类比物理内存)。

包给一个二房东 中介公司Z (jvm)。

中介公司和大楼物业谈好弹性缴费,租多少出去收多少钱。


Z公司先一下租300个位置 (类比Xms)省钱,

Z公司和物业谈好最多租600个位置(类比Xmx)。

Z公司找到了公司A(200人)来这里 就占用了200个工位 (类比一次数据查询)。


公司A是一个大的对象,每个人类比最小的单元格,每个小团队也是一个对象,个人被小团队引用,小团队又被更上级的比如产品,比如大技术支持大团队引用,大团队又被公司引用,最终公司这个大对象占用了200工位,类比下来200个工位内存不释放的根就是这个公司在这儿上班。


这时候公司A倒闭了,200个工位就空出来了(内存释放)。

内存溢出宕机是什么情况呢?

找Z公司租工位的公司,总工位超过了600,总不能坐大腿上上班啊,于是物业不会给Z工位的,合同写的好好的,Z公司不满足客户需求,运作不起来破产倒闭。


经常遇到的申请内存失败的崩溃是什么情况?

物业是个滑头,不止找了Z公司一家中介,还有Y公司也是做中介的(类比两个JVM)。都承诺Z和Y公司都是最多可以租600个位置。初始都租的300个位置,大家相处融洽,随着公司不停入住,矛盾出现了:

Y公司效益比较好,先找了公司,已经占了600位置;

这时候Z公司的效益也上来了,也要增加工位 (类比申请内存),这时候物业根本没有位置能给他。于是Z公司运转不下去,破产倒闭


5 总结

宕机分析的目的就是要找到占用内存的东西,把他找出来,找出他的原因,然后把它改掉。JVM的内存对象分配相当于一颗树,所有的对象都被层层引用,直到GCRoot根节点,如果没有根节点的引用,这个对象是完全可以直接释放掉的,大部分也是因为gcRoot存在的对象过多导致的宕机,当然也不排除可以使用已经回收的对象来分析,由于生成dump的时间不精确,可能他生成的时候 ,对应的大组件已经回收了,但是jvm缓过来还需要一些时间,所以还是处于大量gc的状态,这时候只能通过对于引用的检索找到最多的引用对象来进行分析


目录
相关文章
|
14天前
|
Java
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
java小工具util系列5:java文件相关操作工具,包括读取服务器路径下文件,删除文件及子文件,删除文件夹等方法
51 9
|
2月前
|
Java Linux
java读取linux服务器下某文档的内容
java读取linux服务器下某文档的内容
38 3
java读取linux服务器下某文档的内容
|
2月前
|
运维 Java Linux
【运维基础知识】Linux服务器下手写启停Java程序脚本start.sh stop.sh及详细说明
### 启动Java程序脚本 `start.sh` 此脚本用于启动一个Java程序,设置JVM字符集为GBK,最大堆内存为3000M,并将程序的日志输出到`output.log`文件中,同时在后台运行。 ### 停止Java程序脚本 `stop.sh` 此脚本用于停止指定名称的服务(如`QuoteServer`),通过查找并终止该服务的Java进程,输出操作结果以确认是否成功。
45 1
|
2月前
|
分布式计算 资源调度 Hadoop
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
大数据-01-基础环境搭建 超详细 Hadoop Java 环境变量 3节点云服务器 2C4G XML 集群配置 HDFS Yarn MapRedece
82 4
|
2月前
|
Java Shell Maven
Flink-11 Flink Java 3分钟上手 打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin
Flink-11 Flink Java 3分钟上手 打包Flink 提交任务至服务器执行 JobSubmit Maven打包Ja配置 maven-shade-plugin
118 4
|
2月前
|
弹性计算 安全 网络安全
阿里云国际版无法远程连接Windows服务器的解决方法
阿里云国际版无法远程连接Windows服务器的解决方法
|
2月前
|
网络协议 Java API
【网络】TCP回显服务器和客户端的构造,以及相关bug解决方法
【网络】TCP回显服务器和客户端的构造,以及相关bug解决方法
63 2
|
12天前
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。
|
17天前
|
机器学习/深度学习 人工智能 弹性计算
什么是阿里云GPU云服务器?GPU服务器优势、使用和租赁费用整理
阿里云GPU云服务器提供强大的GPU算力,适用于深度学习、科学计算、图形可视化和视频处理等多种场景。作为亚太领先的云服务提供商,阿里云的GPU云服务器具备灵活的资源配置、高安全性和易用性,支持多种计费模式,帮助企业高效应对计算密集型任务。
|
19天前
|
存储 分布式计算 固态存储
阿里云2核16G、4核32G、8核64G配置云服务器租用收费标准与活动价格参考
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、Spark集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择。目前2核16G配置按量收费最低收费标准为0.54元/小时,按月租用标准收费标准为260.44元/1个月。4核32G配置的阿里云服务器按量收费标准最低为1.08元/小时,按月租用标准收费标准为520.88元/1个月。8核64G配置的阿里云服务器按量收费标准最低为2.17元/小时,按月租用标准收费标准为1041.77元/1个月。本文介绍这些配置的最新租用收费标准与活动价格情况,以供参考。