JFR 定位因为 SSL 导致 CPU Load 飚高的问题

简介: JFR 定位因为 SSL 导致 CPU Load 飚高的问题

问题场景


在某一时刻,某个微服务的某个实例 CPU 负载突然飚高:


image.png


同时建立了很多数据库链接:


image.png


其他实例没有这个现象。


问题定位


由于建立了很多数据库链接,猜想可能是数据库比较慢,查看数据库这段时间的 SQL 统计,发现数据库并不慢:


微信图片_20220624194447.jpg


其中这个微服务这段时间的热点 SQL,执行并不慢。那么问题出在了哪里呢?可能是由于 GC,可能是由于 safepoint,还有可能是获取锁时间过长(参考:Java 监控 JFR全解),我们 dump 一下 JFR 并查看其中的 safepoint,GC 以及 Monitor Blocked 相关事件。

首先查看GC,发现都是 Young GC, GC 暂停时间也可以接受。


微信图片_20220624194505.jpg


然后是 safepoint,虽然有采集到 safepoint,但是暂停时间也没有很长。


微信图片_20220624194518.jpg


最后查看 Java Monitor Block,发现有很多很长时间的锁等待:


微信图片_20220624194530.jpg


堆栈显示,阻塞在:void sun.security.provider.SecureRandom.engineNextBytes(byte[])上面,这就是一个经典的问题,Java Random,参考代码:NativePRNG

// name of the *System* property, takes precedence over PROP_RNDSOURCE
private static final String PROP_EGD = "java.security.egd";
// name of the *Security* property
private static final String PROP_RNDSOURCE = "securerandom.source";
private static final boolean useLegacyDSA =
    Boolean.parseBoolean(GetPropertyAction.privilegedGetProperty
        ("jdk.security.legacyDSAKeyPairGenerator"));
static final String URL_DEV_RANDOM = "file:/dev/random";
static final String URL_DEV_URANDOM = "file:/dev/urandom";

涉及到两种随机数 seed 生成方式,一种是"file:/dev/random",另一种是"file:/dev/urandom",通过设置系统属性java.security.egd指定,默认是"file:/dev/random"


两种 Random 原理与解决


在 Linux 4.8 之前:


微信图片_20220624194544.jpg


在 Linux 4.8 之后:


微信图片_20220624194602.jpg


在熵池不够用的时候,默认的"file:/dev/random"会阻塞,"file:/dev/urandom"不会,继续用。对于我们来说,"file:/dev/urandom"够用,所以通过-Djava.security.egd=file:/dev/./urandom设置系统属性,使用 urandom 来减少阻塞。


相关文章
|
8月前
CPU过高问题定位
CPU过高问题定位
68 0
|
3月前
线程CPU异常定位分析
【10月更文挑战第3天】 开发过程中会出现一些CPU异常升高的问题,想要定位到具体的位置就需要一系列的分析,记录一些分析手段。
92 0
|
3月前
|
Java
Java面试题之cpu占用率100%,进行定位和解决
这篇文章介绍了如何定位和解决Java服务中CPU占用率过高的问题,包括使用top命令找到高CPU占用的进程和线程,以及使用jstack工具获取堆栈信息来确定问题代码位置的步骤。
183 0
Java面试题之cpu占用率100%,进行定位和解决
|
3月前
|
弹性计算 应用服务中间件 网络安全
ECS服务器使用:SSL证书安装、配置和问题定位指南
本文简要介绍了SSL证书的生成与部署方法,包括使用OpenSSL生成自签名证书和从CA获取证书的步骤,以及在Apache和Nginx服务器上的配置方法。此外,还提供了测试证书是否生效的方法和常见问题的解决策略,帮助确保证书正确安装并解决调试过程中可能遇到的问题。
256 0
|
5月前
|
小程序 JavaScript Java
【Java】服务CPU占用率100%,教你用jstack排查定位
本文详细讲解如何使用jstack排查定位CPU高占用问题。首先介绍jstack的基本概念:它是诊断Java应用程序线程问题的工具,能生成线程堆栈快照,帮助找出程序中的瓶颈。接着,文章通过具体步骤演示如何使用`top`命令找到高CPU占用的Java进程及线程,再结合`jstack`命令获取堆栈信息并进行分析,最终定位问题代码。
481 1
【Java】服务CPU占用率100%,教你用jstack排查定位
|
4月前
|
Linux
使用funcgraph-retval和bpftrace/kprobe快速定位并解决cpu控制器无法使能的问题
使用funcgraph-retval和bpftrace/kprobe快速定位并解决cpu控制器无法使能的问题
|
6月前
|
Java
Jstack 查看线程状态及定位占用 cpu 较高的 java 线程
Jstack 查看线程状态及定位占用 cpu 较高的 java 线程
729 2
|
5月前
|
Linux 网络安全 API
【Azure 环境】当在Azure 环境中调用外部接口不通时,如何定位SSL Certificate Problem
【Azure 环境】当在Azure 环境中调用外部接口不通时,如何定位SSL Certificate Problem
|
5月前
|
缓存 NoSQL Redis
【Azure Redis 缓存】Redis的指标显示CPU为70%,而Service Load却达到了100%。这两个指标意义的解释及如何缓解呢?
【Azure Redis 缓存】Redis的指标显示CPU为70%,而Service Load却达到了100%。这两个指标意义的解释及如何缓解呢?
|
6月前
|
监控 Java 中间件
FGC频繁导致CPU 飙升定位及JVM配置优化总结
FGC频繁导致CPU 飙升定位及JVM配置优化总结
210 0