带你读《Apache Tomcat的云原生演进》——Web容器可观测最佳实践(3)https://developer.aliyun.com/article/1377521
Profiling常见技术包括perf、Async-profiler、JFR。以CPU的Profiling火焰图来说,比如我们对一个线程每10毫秒拉一把线程的栈,1秒钟就能拉到100个栈。 即Thread.run调了一个StandardHost Valve.invoke,最后调了一个PrepareStatment.executeQuery。右边的100个栈和左边唯一的区别是,下面调的是Thread.sleep的方法。
然后我们把这200个栈聚合起来就可以得到,Thread.run跑了两秒,这两秒都在跑StandardHost Valve.invoke这个方法。这方法的两秒分别分布在PrepareStatment.executeQuery的一秒和Thread.sleep的一秒,这就是火焰图聚合的原理。
此外,我们还有内存的火焰图。它的触发是在我们每次分配内存的时候,会处罚我们拉一次线程当前的栈。还有网络IO事件也都可以打出火焰图来。
我们考虑把Profiling的数据和Trace上下文、Metrics维度、业务上下文做一个关联,来保证我们可以通过Profiling得到更多的数据,比如我们和traceId、spanId、接口名、userId关联。
我们和traceId关联了之后,就相当于我们拿到了某一次调用的CPU占用量、内存开销。而且还能定位到当前Trace的埋点,没有覆盖的那些方法,我们也能看到它到底占用了多少耗时。和接口名/userId关联后,可以看到这个应用不同的接口占用了多少资源。比如这个接口占了多少CPU占了多少内存打开了多少IO等等数据。有了这些数据,就可以驱动我们的开发区对整个应用进行调优。
上图下侧是我们产品里的一张图,它是和traceId关联了之后的结果。可以看到,一次调用花了两秒,一秒花在了socket的IO上,一秒花在了Thread.sleep上。像socket的IO和Thread.sleep,我们一般都不会通过Trace对它做埋点,因为这种数据在Trace里是看不到的。我们通过火焰图的关联,可以看到一次调用更细节的东西。
带你读《Apache Tomcat的云原生演进》——Web容器可观测最佳实践(5)https://developer.aliyun.com/article/1377519