ARMS Java 应用诊断-全景图首次发布!

本文涉及的产品
应用实时监控服务-用户体验监控,每月100OCU免费额度
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 随着更多企业迁移上云,应用运行环境、网络发生变化。当应用遇到故障需要问题定位时,一些传统问题定位手段由于效率、准确性等问题已无法满足 SRE 运维需求。本文以问题驱动为视角,结合阿里巴巴自身实践与客户服务经验,完整梳理可观测时代 Java 应用诊断知识图谱。

作者:垆皓


前言


更多企业迁移上云,应用运行环境、网络发生变化。当应用遇到故障需要问题定位时,一些传统问题定位手段由于效率、准确性等问题已无法满足 SRE 运维需求。本文以问题驱动为视角,结合阿里巴巴自身实践与客户服务经验,完整梳理可观测时代 Java 应用诊断知识图谱。


1.png


通过用户回访、工单聚类等技术调研,我们发现应用慢调用、慢 SQL、内存溢出,以及 CPU 使用率高等异常是问题多发区。针对以上常见问题,对比传统故障定位手段,我们将详细解析如何借助自动化、成熟可观测体系实现故障快速定界与定位。


关注阿里云云原生公众号,回复关键词【JAVA全景图】获取高清大图下载地址!


Java 应用诊断-全景图首次发布


2.png


常见问题一:如何排查用户态 CPU 使用率高?


jstack 排查 CPU 使用率高


用户态 CPU 使用率反映了应用程序的繁忙程度,通常与业务应用代码实现相关。因此,在进行应用发布、配置变更或性能优化时,想定位消耗 CPU 最多的 Java 代码,可以遵循如下思路:


  • 通过 top 命令找到 CPU 消耗最多进程号; 


  • 通过 top -Hp 进程号 命令找到 CPU 消耗最多线程号(列名仍然为 PID),并转换成 16 进制; 


  • 通过 jstack 进程号 | grep 16 进制线程号 -A 10 命令找到 CPU 消耗最多线程方法堆栈。 


上述方法是目前在定位 CPU 类型问题最常用诊断流程。然而上述方法有两个显著缺陷,一是操作流程复杂且一次 jstack 还不足以定位根因,需要执行多次来进行对比;二是只能用于诊断在线问题,如果问题已经发生并无法复现,没有办法还原问题第一现场,往往只能不了了之。


ARMS诊断思路(线程剖析)


ARMS 为了解决多次 jstack 时机不足以及无法还原第一现场问题,将被动诊断变为主动诊断。通过实时检测、主动收集、在线分析的思路,当发生 CPU 使用率问题时,通过白屏化方式第一时间抓取到应用业务线程堆栈。


3.png


常见问题二:如何排查应用 OutOfMemoryError 问题?


当 JVM 内存严重不足时,就会抛出 java.lang.OutOfMemoryError 错误。


4.png


Java heap space 空间不足


当堆内存(Heap Space)没有足够空间存放新创建的对象时,就会抛出 java.lang.OutOfMemoryError: Java heap space 错误(根据实际生产经验,可以对程序日志中的 OutOfMemoryError 配置关键字告警,一经发现,立即处理)。


  • 原因分析
     

Java heap space 错误产生的常见原因可以分为以下几类:


  • 请求创建一个超大对象,通常是一个大数组。 


  • 超出预期的访问量/数据量,通常是上游系统请求流量飙升,常见于各类促销/秒杀活动,可以结合业务流量指标排查是否有尖状峰值。 


  • 过度使用终结器(Finalizer),该对象没有立即被 GC。 


  • 内存泄漏(Memory Leak),大量对象引用没有释放,JVM 无法对其自动回收,常见于使用了 File 等资源没有回收。 


  • 解决方案
     

针对大部分情况,通常只需要通过 -Xmx 参数调高 JVM 堆内存空间即可。如果仍然没有解决,可以参考以下情况做进一步处理:


  • 如果是超大对象,可以检查其合理性,比如是否一次性查询了数据库全部结果,而没有做结果数限制。 


  • 如果是业务峰值压力,可以考虑添加机器资源,或者做限流降级。 


  • 如果是内存泄漏,需要找到持有的对象,修改代码设计,比如关闭没有释放的连接。 


Metaspace 元空间不足


  • 原因分析
     

JDK 1.8 使用 Metaspace 替换了永久代(Permanent Generation),该错误表示 Metaspace 已被用满,通常是因为加载的 class 数目太多或体积太大。


  • 解决方案 


此类问题的原因与解决方法跟 Permgen space 非常类似,可以参考上文。需要特别注意的是调整 Metaspace 空间大小的启动参数为 -XX:MaxMetaspaceSize。


Unable to create new native thread


每个 Java 线程都占用一定内存空间,当 JVM 向底层操作系统请求创建一个新的 native 线程时,如果没有足够资源分配就会报此类错误。


  • 原因分析 


JVM 向 OS 请求创建 native 线程失败,就会抛出 Unable to create new native thread,常见的原因包括以下几类:


  • 线程数超过操作系统最大线程数 ulimit 限制; 


  • 线程数超过 kernel.pid_max(只能重启); 


  • native 内存不足。 


该问题发生的常见过程主要包括以下几步:


1. JVM 内部的应用程序请求创建一个新 Java 线程;


2. JVM native 方法代理了该次请求,并向操作系统请求创建一个 native 线程;


3. 操作系统尝试创建一个新 native 线程,并为其分配内存;


4. 如果操作系统的虚拟内存已耗尽,或是受到 32 位进程的地址空间限制,操作系统就会拒绝本次 native 内存分配;


5. JVM 将抛出 java.lang.OutOfMemoryError: Unable to create new native thread 错误。


  • 解决方案 


  • 升级配置,为机器提供更多的内存;
  • 降低 Java Heap Space 大小;
  • 修复应用程序的线程泄漏问题;
  • 限制线程池大小;
  • 使用 -Xss 参数减少线程栈的大小;
  • 调高 OS 层面的线程最大数:执行 ulimia -a 查看最大线程数限制,使用 ulimit -u xxx 调整最大线程数限制。 


ARMS 诊断思路(内存快照分析)


ARMS 提供轻量级内存分析工具,无需登陆到业务机器上执行 jmap 命令,通过白屏化的方式应用出现 OOM 的时候,在线分析内存占用的分布情况,找到占用比重最高的业务代码。


5.png


常见问题三:如何排查应用出现的慢调用的问题?


依赖应用日志打点


通常来讲在应用关键代码进行拦截比如通过Spring的AOP,在方法执行的开始以及结束进行规范化的日志输出(包含关键字),当应用出现慢调用请求时,能够通过关键快速找到对应的请求并找到实际的耗时。此种方案所带来的弊端是对于业务代码具有一定的侵入性,并且需要长期来进行维护,当找到具体执行慢的请求时,因执行方法体内部没有打点,所以对于业务复杂的执行过程来讲,比较难直接找到根因。


ARMS 诊断思路(Tracing + 方法堆栈)


通过非侵入探针植入的方式,业务代码零改造,自动具备Tracing的能力,并且能够深入到方法堆栈的级别,找到慢调用请求后,分钟级可实现慢方法问题的根因定位。


6.png


7.png

相关实践学习
通过云拨测对指定服务器进行Ping/DNS监测
本实验将通过云拨测对指定服务器进行Ping/DNS监测,评估网站服务质量和用户体验。
相关文章
|
2月前
|
缓存 监控 前端开发
优化 Flutter 应用启动速度的策略,涵盖理解启动过程、资源加载优化、减少初始化工作、界面布局优化、异步初始化、预加载关键数据、性能监控与分析等方面
本文探讨了优化 Flutter 应用启动速度的策略,涵盖理解启动过程、资源加载优化、减少初始化工作、界面布局优化、异步初始化、预加载关键数据、性能监控与分析等方面,并通过案例分析展示了具体措施和效果,强调了持续优化的重要性及未来优化方向。
74 10
|
6天前
|
存储 人工智能 JSON
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
RAG Logger 是一款专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、检索结果记录、LLM 交互记录和性能监控等功能。
30 7
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
|
30天前
|
监控 开发工具 Android开发
ARMS 用户体验监控正式发布原生鸿蒙应用 SDK
阿里云 ARMS 用户体验监控(RUM)推出了针对原生鸿蒙应用的 SDK。SDK 使用 ArkTS 语言开发,支持页面采集、资源加载采集、异常采集及自定义采集等功能,能够全面监控鸿蒙应用的表现。集成简单,只需几步即可将 SDK 接入项目中,为鸿蒙应用的开发者提供了强有力的支持。
|
5月前
|
监控 DataWorks 前端开发
ARMS错误诊断
【8月更文挑战第22天】
80 4
|
5月前
|
机器学习/深度学习 人工智能 算法
探索人工智能在医疗诊断中的应用与挑战Java编程中的对象和类:基础与实践
【8月更文挑战第27天】随着人工智能(AI)技术的飞速发展,其在医疗领域的应用日益广泛。本文深入探讨了AI技术在医疗诊断中的具体应用案例,包括图像识别、疾病预测和药物研发等方面,并分析了当前面临的主要挑战,如数据隐私、算法偏见和法规限制等。文章旨在为读者提供一个全面的视角,理解AI在改善医疗服务质量方面的潜力及其局限性。
|
6月前
|
监控 Java 数据库连接
Java面试题:如何诊断和解决Java应用的内存泄漏问题?
Java面试题:如何诊断和解决Java应用的内存泄漏问题?
70 2
|
6月前
|
缓存 监控 Java
Spring Boot应用的性能监控与优化
Spring Boot应用的性能监控与优化
|
6月前
|
存储 算法 安全
Java面试题:给定一个可能产生内存泄漏的场景,如何诊断并解决?实现一个生产者-消费者模型,使用适当的同步机制与并发工具类,Java并发工具包与框架:性能与调优
Java面试题:给定一个可能产生内存泄漏的场景,如何诊断并解决?实现一个生产者-消费者模型,使用适当的同步机制与并发工具类,Java并发工具包与框架:性能与调优
44 0
|
6月前
|
安全 算法 Java
Java面试题:如何诊断和解决Java应用程序中的内存泄漏问题?如何实现一个线程安全的计数器?如何合理配置线程池以应对不同的业务场景?
Java面试题:如何诊断和解决Java应用程序中的内存泄漏问题?如何实现一个线程安全的计数器?如何合理配置线程池以应对不同的业务场景?
48 0
|
6月前
|
运维 监控 Java
Spring Boot应用的性能监控与优化指南
Spring Boot应用的性能监控与优化指南

相关产品

  • 应用实时监控服务
  • 下一篇
    开通oss服务