Event 采集详细配置
目前,JDK 11 一共有136个 Event 采集配置。这里会比较详细的去看每一个Event,并说明基本应用,建议配置。如果 default.jfc 中没有打开或者需要修改的配置,会将配置文件代码发出来。
1. JFR 相关 Event
一共4个 Event,但是需要关心的就下面这两个
- Data Loss:数局丢失 Event,当有数据发生丢失时,会有这个Event 进行记录。包括开始时间,Amount(本次丢失多少事件),Total(一共丢失多少事件)
- Recording Setting:记录详细配置采集 Event,会在每次产生新的 Data Chunk 的时候采集一次所有的 Event 的详细配置并记录到这个 Event 中。
这些在 default.jfc 中默认打开
2. JAVA 应用相关
2.1. TLAB 相关
众所周知,TLAB (Thread Local Allocation Buffer)目的是为类进行内存快速分配。堆内存所有线程共享访问,所以在堆内存上面分配对象,就会锁定整个堆,这样效率太低。TLAB 是位于堆内存上面的一块内存区域,在为每个线程分配 TLAB 的时候才会锁定堆(G1 是CAS分配)。分配对象的时候,优先从线程的 TLAB 上分配,这样就不用和其他线程同步。当对象比较大的时候,例如对于 G1 来说, HeapRegionSize 配置大小的一半以上的对象就被认为是大对象,大对象的分配不会发生在 TLAB,不在 TLAB 发生的对象分配会涉及到线程同步。
这是比较笼统的看法,针对于 G1,这个算法更加复杂。为了能说明 JFR 相关事件的意义,这里继续深入一下关于 G1 TLAB 相关原理。
创建一个对象时:
- 首先尝试从线程现有的TLAB空间分配内存
- 如果剩余空间不足,查看是否能分配一个新的TLAB,再分配内存给对象
- TLAB 的实现内部,每个线程维护一个 refill_waste 的变量,根据这个变量的值决定是否能分配一个新的TLAB。这个变量会根据一定算法随着线程的运行不断变化
- 同时, 每个线程的 TLAB 大小也是随着线程运行不断变化的
- 当 TLAB 剩余空间不足时,查看当前 TLAB 的剩余大小,如果小于 refill_waste 当前值,则认为 TLAB 该扩容了,需要分配一个新的TLAB,这时候,JFR 会产生一条 ObjectAllocationInNewTLAB Event 记录;如果不小于,则认为这个 TLAB 还不算满,当前这个对象直接走堆上内存分配,不从 TLAB 分配,这时会产生一条 ObjectAllocationOutsideTLAB Event 记录。
涉及的 Event 以及默认配置:
- ObjectAllocationInNewTLAB: TLAB 扩容时产生的 Event
- 在 default.jfc 中默认没有打开,可以通过向导配置 memory-profiling 调为 memory-profiling-enabled-medium 打开
- 也可以用高级配置配置这个 Event 是否采集,以及堆栈是否采集 -采集内容包括:时间,线程,本次需要分配内存大小,对象类型,当前 TLAB 大小
- ObjectAllocationOutsideTLAB:
- 在 default.jfc 中默认没有打开,可以通过向导配置 memory-profiling 调为 memory-profiling-enabled-medium 打开
- 也可以用高级配置配置这个 Event 是否采集,以及堆栈是否采集
- 采集内容包括:时间,线程,本次需要分配内存大小,对象类型
这两个的采集,对性能影响比较大,不能长期跑。尤其是在启用堆栈收集后,影响就更大了。一般考虑动态打开。
一般应用:
- 对于上一节里面需要确定 HeapRegionSize 大小的时候,可以考虑采集一段时间内的 ObjectAllocationOutsideTLAB Event,查看最大需要的内存大小是多少。
- 如果考虑通过减少内存分配,来减少 GC,或者定位大内存分配代码位置,可以打开这两个 Event 的采集,查看造成这些事件的热点堆栈是哪里,以此优化代码。
配置打开示例:
<event name="jdk.ObjectAllocationInNewTLAB"> <setting name="enabled">true</setting> <setting name="stackTrace">true</setting> </event> <event name="jdk.ObjectAllocationOutsideTLAB"> <setting name="enabled">true</setting> <setting name="stackTrace">true</setting> </event>
事件 jmc 查看示例:
2.2. 文件操作相关
主要涉及三个 Event:
- FileForce:强制写的时候,会产生这个 Event
- FileRead:文件读的时候,会产生这个 Event
- FileWrite:文件写的时候,会产生这个 Event
以 FileChannel
举例:
try (RandomAccessFile reader = new RandomAccessFile("src/test/resources/test_read.in", "rw"); FileChannel channel = reader.getChannel(); ByteArrayOutputStream out = new ByteArrayOutputStream()) { int bufferSize = 1024; ByteBuffer buff = ByteBuffer.allocate(bufferSize); channel.read(buff); //产生 FileRead channel.write(buff); // 产生 FileWrite channel.force(true); // 强制不写入高速缓存,直接写入磁盘文件 channel.write(buff); // 产生 FileForce }
这三个事件配置可以采集堆栈,设置采集时间阈值。在 default.jfc 中,这三个事件默认都是采集的,堆栈采集打开,并且阈值是20ms。如果你的应用只是打日志用到了文件,那个这个默认配置就很足够了。尤其是对于 Log4j2 的异步日志,这个阈值是够用的。如果你的应用需要高频操作文件,例如 RocketMQ 的 日志文件(基于 mmap)的,则这个阈值最好改成10ms,因为对文件写入读取速度要求更高。
2.3. 异常与错误相关
主要涉及两个 Event:
- Java Error Event:当有 Error 被 throw 时,会产生这个event, default.jfc 中默认开启这个采集,并且包括堆栈(配置项是 JavaErrorThrow)
- Java Exception Event:当有 Exception 被 throw 时,会产生这个event,default.jfc 中默认不开启这个采集,并且包括堆栈(配置项是 JavaExceptionThrow)
我建议不用开启这两个 EVent 的采集,因为 Exception 我们可以通过日志分析, Error 一般框架都会有一些,一般与为我们的业务无关。