ARMS Java 应用诊断-全景图首次发布!

本文涉及的产品
云原生网关 MSE Higress,422元/月
任务调度 XXL-JOB 版免费试用,400 元额度,开发版规格
可观测可视化 Grafana 版,10个用户账号 1个月
简介: 随着更多企业迁移上云,应用运行环境、网络发生变化。当应用遇到故障需要问题定位时,一些传统问题定位手段由于效率、准确性等问题已无法满足 SRE 运维需求。本文以问题驱动为视角,结合阿里巴巴自身实践与客户服务经验,完整梳理可观测时代 Java 应用诊断知识图谱。

作者:垆皓


前言


更多企业迁移上云,应用运行环境、网络发生变化。当应用遇到故障需要问题定位时,一些传统问题定位手段由于效率、准确性等问题已无法满足 SRE 运维需求。本文以问题驱动为视角,结合阿里巴巴自身实践与客户服务经验,完整梳理可观测时代 Java 应用诊断知识图谱。


1.png


通过用户回访、工单聚类等技术调研,我们发现应用慢调用、慢 SQL、内存溢出,以及 CPU 使用率高等异常是问题多发区。针对以上常见问题,对比传统故障定位手段,我们将详细解析如何借助自动化、成熟可观测体系实现故障快速定界与定位。


关注阿里云云原生公众号,回复关键词【JAVA全景图】获取高清大图下载地址!


Java 应用诊断-全景图首次发布


2.png


常见问题一:如何排查用户态 CPU 使用率高?


jstack 排查 CPU 使用率高


用户态 CPU 使用率反映了应用程序的繁忙程度,通常与业务应用代码实现相关。因此,在进行应用发布、配置变更或性能优化时,想定位消耗 CPU 最多的 Java 代码,可以遵循如下思路:


  • 通过 top 命令找到 CPU 消耗最多进程号; 


  • 通过 top -Hp 进程号 命令找到 CPU 消耗最多线程号(列名仍然为 PID),并转换成 16 进制; 


  • 通过 jstack 进程号 | grep 16 进制线程号 -A 10 命令找到 CPU 消耗最多线程方法堆栈。 


上述方法是目前在定位 CPU 类型问题最常用诊断流程。然而上述方法有两个显著缺陷,一是操作流程复杂且一次 jstack 还不足以定位根因,需要执行多次来进行对比;二是只能用于诊断在线问题,如果问题已经发生并无法复现,没有办法还原问题第一现场,往往只能不了了之。


ARMS诊断思路(线程剖析)


ARMS 为了解决多次 jstack 时机不足以及无法还原第一现场问题,将被动诊断变为主动诊断。通过实时检测、主动收集、在线分析的思路,当发生 CPU 使用率问题时,通过白屏化方式第一时间抓取到应用业务线程堆栈。


3.png


常见问题二:如何排查应用 OutOfMemoryError 问题?


当 JVM 内存严重不足时,就会抛出 java.lang.OutOfMemoryError 错误。


4.png


Java heap space 空间不足


当堆内存(Heap Space)没有足够空间存放新创建的对象时,就会抛出 java.lang.OutOfMemoryError: Java heap space 错误(根据实际生产经验,可以对程序日志中的 OutOfMemoryError 配置关键字告警,一经发现,立即处理)。


  • 原因分析
     

Java heap space 错误产生的常见原因可以分为以下几类:


  • 请求创建一个超大对象,通常是一个大数组。 


  • 超出预期的访问量/数据量,通常是上游系统请求流量飙升,常见于各类促销/秒杀活动,可以结合业务流量指标排查是否有尖状峰值。 


  • 过度使用终结器(Finalizer),该对象没有立即被 GC。 


  • 内存泄漏(Memory Leak),大量对象引用没有释放,JVM 无法对其自动回收,常见于使用了 File 等资源没有回收。 


  • 解决方案
     

针对大部分情况,通常只需要通过 -Xmx 参数调高 JVM 堆内存空间即可。如果仍然没有解决,可以参考以下情况做进一步处理:


  • 如果是超大对象,可以检查其合理性,比如是否一次性查询了数据库全部结果,而没有做结果数限制。 


  • 如果是业务峰值压力,可以考虑添加机器资源,或者做限流降级。 


  • 如果是内存泄漏,需要找到持有的对象,修改代码设计,比如关闭没有释放的连接。 


Metaspace 元空间不足


  • 原因分析
     

JDK 1.8 使用 Metaspace 替换了永久代(Permanent Generation),该错误表示 Metaspace 已被用满,通常是因为加载的 class 数目太多或体积太大。


  • 解决方案 


此类问题的原因与解决方法跟 Permgen space 非常类似,可以参考上文。需要特别注意的是调整 Metaspace 空间大小的启动参数为 -XX:MaxMetaspaceSize。


Unable to create new native thread


每个 Java 线程都占用一定内存空间,当 JVM 向底层操作系统请求创建一个新的 native 线程时,如果没有足够资源分配就会报此类错误。


  • 原因分析 


JVM 向 OS 请求创建 native 线程失败,就会抛出 Unable to create new native thread,常见的原因包括以下几类:


  • 线程数超过操作系统最大线程数 ulimit 限制; 


  • 线程数超过 kernel.pid_max(只能重启); 


  • native 内存不足。 


该问题发生的常见过程主要包括以下几步:


1. JVM 内部的应用程序请求创建一个新 Java 线程;


2. JVM native 方法代理了该次请求,并向操作系统请求创建一个 native 线程;


3. 操作系统尝试创建一个新 native 线程,并为其分配内存;


4. 如果操作系统的虚拟内存已耗尽,或是受到 32 位进程的地址空间限制,操作系统就会拒绝本次 native 内存分配;


5. JVM 将抛出 java.lang.OutOfMemoryError: Unable to create new native thread 错误。


  • 解决方案 


  • 升级配置,为机器提供更多的内存;
  • 降低 Java Heap Space 大小;
  • 修复应用程序的线程泄漏问题;
  • 限制线程池大小;
  • 使用 -Xss 参数减少线程栈的大小;
  • 调高 OS 层面的线程最大数:执行 ulimia -a 查看最大线程数限制,使用 ulimit -u xxx 调整最大线程数限制。 


ARMS 诊断思路(内存快照分析)


ARMS 提供轻量级内存分析工具,无需登陆到业务机器上执行 jmap 命令,通过白屏化的方式应用出现 OOM 的时候,在线分析内存占用的分布情况,找到占用比重最高的业务代码。


5.png


常见问题三:如何排查应用出现的慢调用的问题?


依赖应用日志打点


通常来讲在应用关键代码进行拦截比如通过Spring的AOP,在方法执行的开始以及结束进行规范化的日志输出(包含关键字),当应用出现慢调用请求时,能够通过关键快速找到对应的请求并找到实际的耗时。此种方案所带来的弊端是对于业务代码具有一定的侵入性,并且需要长期来进行维护,当找到具体执行慢的请求时,因执行方法体内部没有打点,所以对于业务复杂的执行过程来讲,比较难直接找到根因。


ARMS 诊断思路(Tracing + 方法堆栈)


通过非侵入探针植入的方式,业务代码零改造,自动具备Tracing的能力,并且能够深入到方法堆栈的级别,找到慢调用请求后,分钟级可实现慢方法问题的根因定位。


6.png


7.png

相关实践学习
通过轻量消息队列(原MNS)主题HTTP订阅+ARMS实现自定义数据多渠道告警
本场景将自定义告警信息同时分发至多个通知渠道的需求,例如短信、电子邮件及钉钉群组等。通过采用轻量消息队列(原 MNS)的主题模型的HTTP订阅方式,并结合应用实时监控服务提供的自定义集成能力,使得您能够以简便的配置方式实现上述多渠道同步通知的功能。
相关文章
|
2月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
本文探讨Java大数据可视化在城市空气质量监测与污染溯源中的创新应用,结合多源数据采集、实时分析与GIS技术,助力环保决策,提升城市空气质量管理水平。
Java 大视界 -- 基于 Java 的大数据可视化在城市空气质量监测与污染溯源中的应用(216)
|
2月前
|
存储 监控 数据可视化
Java 大视界 -- 基于 Java 的大数据可视化在企业生产运营监控与决策支持中的应用(228)
本文探讨了基于 Java 的大数据可视化技术在企业生产运营监控与决策支持中的关键应用。面对数据爆炸、信息孤岛和实时性不足等挑战,Java 通过高效数据采集、清洗与可视化引擎,助力企业构建实时监控与智能决策系统,显著提升运营效率与竞争力。
|
2月前
|
Java 大数据 数据处理
Java 大视界 -- 基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战(222)
本文探讨了基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战。文章分析了传统制造模式的局限性,介绍了工业互联网带来的机遇,并结合实际案例展示了 Java 在多源数据采集、实时处理及设备协同优化中的关键技术应用。同时,也深入讨论了数据安全、技术架构等挑战及应对策略。
|
2月前
|
数据采集 搜索推荐 Java
Java 大视界 -- Java 大数据在智能教育虚拟学习环境构建与用户体验优化中的应用(221)
本文探讨 Java 大数据在智能教育虚拟学习环境中的应用,涵盖多源数据采集、个性化推荐、实时互动优化等核心技术,结合实际案例分析其在提升学习体验与教学质量中的成效,并展望未来发展方向与技术挑战。
|
9天前
|
人工智能 Java API
Java与大模型集成实战:构建智能Java应用的新范式
随着大型语言模型(LLM)的API化,将其强大的自然语言处理能力集成到现有Java应用中已成为提升应用智能水平的关键路径。本文旨在为Java开发者提供一份实用的集成指南。我们将深入探讨如何使用Spring Boot 3框架,通过HTTP客户端与OpenAI GPT(或兼容API)进行高效、安全的交互。内容涵盖项目依赖配置、异步非阻塞的API调用、请求与响应的结构化处理、异常管理以及一些面向生产环境的最佳实践,并附带完整的代码示例,助您快速将AI能力融入Java生态。
134 12
|
17天前
|
安全 Java API
Java SE 与 Java EE 区别解析及应用场景对比
在Java编程世界中,Java SE(Java Standard Edition)和Java EE(Java Enterprise Edition)是两个重要的平台版本,它们各自有着独特的定位和应用场景。理解它们之间的差异,对于开发者选择合适的技术栈进行项目开发至关重要。
75 1
|
2月前
|
设计模式 XML 安全
Java枚举(Enum)与设计模式应用
Java枚举不仅是类型安全的常量,还具备面向对象能力,可添加属性与方法,实现接口。通过枚举能优雅实现单例、策略、状态等设计模式,具备线程安全、序列化安全等特性,是编写高效、安全代码的利器。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
Java 大视界 -- Java 大数据机器学习模型在自然语言生成中的可控性研究与应用(229)
本文深入探讨Java大数据与机器学习在自然语言生成(NLG)中的可控性研究,分析当前生成模型面临的“失控”挑战,如数据噪声、标注偏差及黑盒模型信任问题,提出Java技术在数据清洗、异构框架融合与生态工具链中的关键作用。通过条件注入、强化学习与模型融合等策略,实现文本生成的精准控制,并结合网易新闻与蚂蚁集团的实战案例,展示Java在提升生成效率与合规性方面的卓越能力,为金融、法律等强监管领域提供技术参考。
|
2月前
|
存储 人工智能 算法
Java 大视界 -- Java 大数据在智能医疗影像数据压缩与传输优化中的技术应用(227)
本文探讨 Java 大数据在智能医疗影像压缩与传输中的关键技术应用,分析其如何解决医疗影像数据存储、传输与压缩三大难题,并结合实际案例展示技术落地效果。