跑的好好的 Java 进程,怎么突然就瘫痪了

本文涉及的产品
性能测试 PTS,5000VUM额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介:

内存回收一直是 Java的痛点

用 Java 无法做出类似 Redis 这样的产品。Java 的内存回收机制使我们在编写代码时不需要关注对象的回收,同时加大了内存回收的消耗,标记复制需要做内存拷贝,标记清除算法则需要 stop the world 。所以我们在使用缓存的时候,量稍微大一些就需要借助类似 Redis 这样的中间件帮我们处理了。作为 Javaer ,我们享受了自动内存回收的安逸,同时也需要多了解下内存优化的方法。

为什么 FGC 停不下来了

什么情况下会 GC

为了了解我们的系统为什么会不停 FGC ,我们需要先了解一下系统什么情况下会 GC 。在 Jvm 层面,当我们 new 一个对象的时候, Jvm 会先在堆区分配对象需要的内存,这个时候如果内存不够的话,就需要 GC 了, GC 的返回结果就是对象的空间地址。Jvm 会先进行 ygc ,也就是我们通常说的标记复制,如果 ygc 之后依然申请不到空间,就会进行 FGC 了。同理,如果 FGC 之后依然没有足够的空间,就会循环的进行 FGC ,直到申请到足够的空间。

导致不停的 FGC 的原因

如上文所讲, FGC 有可能发生在你的每一行代码。如果 FGC 之后依然没有足够的空间,就会不停的 FGC ,直到申请到足够的空间。同时 JVM 会限制在抛出 OutOfMemory 错误之前在 GC 中花费的 VM 时间的比例。系统频繁 F 大致有五种情况:

  • 内存泄漏
  • 请求处理变慢导致同时申请内存的线程太多
  • metaspace 耗尽
  • 常量池将堆区占满
  • 堆外内存耗尽

在一个高并发的系统中,多数 FGC 是请求处理变慢导致的。假设单机承受 tps 是1w,正常情况下处理一个请求的时间是 1ms ,那同一时刻并行的请求数量仅为 10 。如果性能发生抖动,每个请求处理的时间增加到 100ms ,那同一时刻并行的请求数量就会增加到 100 个。每个线程在处理请求的时候都会 new 一些对象出来,长时间存活的线程会造成类似内存泄漏的效果,将系统的内存耗尽。同时 FGC 也会加剧系统性能的开销,使系统变得更慢,产生雪崩。

如何让系统 FGC 之后仍然能活下来

杜绝内存泄漏

内存泄漏产生的原因以及解决办法网上有很多资料,这里就不写了。内存泄漏造成系统瘫痪的频率很高,有些系统定时从数据库拉取配置信息缓存到集合中,但是 set 不小心写成了 list ,最终在新增元素的时候内存溢出了。养成良好的编程习惯,多关注些细节,就能避免很多未知的问题。

并发限制:防止系统被撑死

每台服务器都有并行处理请求的上限,不管请求处理的多快,超过上限之后就会被撑死,对高并发的请求做好并发数限制是保持系统稳定的必要条件。需要注意的是,有一些系统在拒绝过多的请求时,也会做一些降级逻辑,降级逻辑也是有性能开销的,同样需要做并发限制,如果降级的请求超过并发限制,将不进行降级逻辑直接抛出异常。

自适应限流:防止系统被摸死

我们需要自适应限流有两个原因:

每台服务器所处的环境是不一样的

有些服务器和离线计算的 vm 混部在一起,有些部署在实体机,有些部署在新老型号的机器上,每台服务器能承受的 qps 并不完全一样。统一配置分布式系统中每台服务器限流阀值,要么发挥不出每台服务器应有的作用,要么在高 qps 的情况下一些比较慢的服务器宕机,所以用服务器作为限流粒度是最合适的。

设置了正确的限流阀值,也可能被摸死

当单机承受的 QPS 6~20 倍于限流的流量时,拒绝一次请求的开销就无法忽略不记了。譬如春晚活动有些系统设置了正确的限流也被 6~20 倍于限流的流量冲垮。这种死法称为被摸死。应对这种情况,我们可以做的是在受到 6~20 倍的大流量时,动态减少限流的阀值。比如系统最开始接受 1000qps ,5000 的拒绝流量过来会把系统摸死,这个时候我们调整系统的阀值,限流设置到 100 ,被摸死的阀值就可以高一些,这样就算有 6000 个请求进来,我们系统也可以保证活下来。

阿里有结合算法动态调整单机限流阀的产品,已经对外公布了,感兴趣的同学可以搜一下淘系技术公众号中的 诺亚自适应限流 的相关内容。

异常流量监控:防止长尾请求拖垮系统

我们盯系统监控的时候通常会关注 99 分位的数据,但如果设置了合理的限流,系统依然被流量打挂,就要从那百分之一的长尾数据入手了。有些长尾数据对系统的影响会非常大。想象如果一个 put 请求传过来几十兆的数据,对 Java 是极为不友好的,很有可能产生 FGC ,让请求变慢,导致一系列问题。

总之,磨刀不误砍柴工,当我们的系统因为 FGC 一次又一次重启的时候,不如花时间了解下系统产生性能问题的原因,将产生问题的那根针拔掉,晚上睡个安稳觉,白天更加充满活力的挖新坑。希望每个程序员手里都是一个稳定的系统。

作者信息:通木, Github 账号 zhdd99 ,阿里巴巴基础设施事业部高级开发工程师,目前主要负责阿里巴巴IDC监控系统。

相关文章
|
5月前
|
Java 程序员 调度
【JAVA 并发秘籍】进程、线程、协程:揭秘并发编程的终极武器!
【8月更文挑战第25天】本文以问答形式深入探讨了并发编程中的核心概念——进程、线程与协程,并详细介绍了它们在Java中的应用。文章不仅解释了每个概念的基本原理及其差异,还提供了实用的示例代码,帮助读者理解如何在Java环境中实现这些并发机制。无论你是希望提高编程技能的专业开发者,还是准备技术面试的求职者,都能从本文获得有价值的见解。
80 1
|
24天前
|
Java 对象存储 开发者
如何找出Java进程占用CPU高的元凶
本文记录了一次Java进程CPU占用率过高的问题和排查思路。
|
2月前
|
Java
java小知识—进程和线程
进程 进程是程序的一次执行过程,是系统运行的基本单位,因此进程是动态的。系统运行一个程序即是一个进程从创建,运行到消亡的过程。简单来说,一个进程就是一个执行中的程序,它在计算机中一个指令接着一个指令地执行着,同时,每个进程还占有某些系统资源如CPU时间,内存空间,文件,文件,输入输出设备的使用权等等。换句话说,当程序在执行时,将会被操作系统载入内存中。 线程 线程,与进程相似,但线程是一个比进程更小的执行单位。一个进程在其执行的过程中产生多个线程。与进程不同的是同类的多个线程共享同一块内存空间和一组系统资源,所以系统在产生一个线程,或是在各个线程之间做切换工作时,负担要比
32 1
|
3月前
|
Java 关系型数据库 MySQL
java控制Windows进程,服务管理器项目
本文介绍了如何使用Java的`Runtime`和`Process`类来控制Windows进程,包括执行命令、读取进程输出和错误流以及等待进程完成,并提供了一个简单的服务管理器项目示例。
50 1
|
3月前
|
运维 监控 Java
使用jps命令查看Java进程
`jps`是Java开发者和系统管理员的得力助手,它简化了Java进程监控的过程,使得快速检查应用运行状态变得轻而易举。通过合理利用其提供的参数,可以高效地进行故障排查、性能监控及日常管理任务,确保Java应用稳定运行。
130 2
|
5月前
|
消息中间件 算法 Java
深入浅出操作系统:进程管理的艺术掌握Java中的异常处理机制
【8月更文挑战第30天】在数字世界的舞台上,操作系统扮演着导演的角色,精心安排着每一个进程的表演。本文将揭开进程管理的神秘面纱,从进程的诞生到终结,探究它们如何在操作系统的指挥下和谐共舞。通过生动的比喻和直观的代码示例,我们将一同走进操作系统的核心,理解进程调度、同步与通信的内在机制,以及它们对计算生态的重要性。让我们跟随代码的节奏,一起感受操作系统的魅力吧!
|
5月前
|
Java Windows
【Azure Developer】Windows中通过pslist命令查看到Java进程和线程信息,但为什么和代码中打印出来的进程号不一致呢?
【Azure Developer】Windows中通过pslist命令查看到Java进程和线程信息,但为什么和代码中打印出来的进程号不一致呢?
|
5月前
|
C# 开发者 数据处理
WPF开发者必备秘籍:深度解析数据网格最佳实践,轻松玩转数据展示与编辑大揭秘!
【8月更文挑战第31天】数据网格控件是WPF应用程序中展示和编辑数据的关键组件,提供排序、筛选等功能,显著提升用户体验。本文探讨WPF中数据网格的最佳实践,通过DevExpress DataGrid示例介绍其集成方法,包括添加引用、定义数据模型及XAML配置。通过遵循数据绑定、性能优化、自定义列等最佳实践,可大幅提升数据处理效率和用户体验。
75 0
|
6月前
|
Java 运维
开发与运维命令问题之使用jstack命令查看Java进程的线程栈如何解决
开发与运维命令问题之使用jstack命令查看Java进程的线程栈如何解决
73 2
|
5月前
|
消息中间件 安全 Java
Java 中的线程与进程之区别
【8月更文挑战第22天】
108 0