jvm性能调优实战 - 47超大数据量处理系统是如何OOM的

简介: jvm性能调优实战 - 47超大数据量处理系统是如何OOM的

Pre

之前我们已经用代码给大家都演示过几种不同的内存溢出的场景了,但是光看代码演示可能大家还是找不到感觉。因此,我们同样也会用曾经遇到过的真实线上系统运行场景来让大家看看是如何触发堆内存溢出的。


Case

还记得超大数据量的计算引擎系统么? 之前就用这个系统案例给大家分析过GC问题,但是因为他处理的数据量实在是很大,负载也过高,所以除了GC问题以外,还有OOM问题。

首先用最最简化的一张图给大家解释系统的工作流程。简单来说,就是不停的从数据存储中加载大量的数据到内存里来进行复杂的计算,如下图所示。

这个系统会不停的加载数据到内存里来计算,每次少则加载几十万条数据,多则加载上百万条数据,所以系统的内存负载压力是非常大的。

另外这里给大家多讲一些之前案例中没提到过的这个系统的一些运行流程,因为他跟我们这次讲解的OOM场景是有关系的。

这个系统每次加载数据到内存里计算完毕之后,就需要将计算好的数据推送给另外一个系统,两个系统之间的数据推送和交互,最适合的就是基于消息中间件来做

因此当时就选择了将数据推送到Kafka,然后另外一个系统从Kafka里取数据,如下图。

这就是系统完整的一个运行流程,加载数据、计算数据、推送数据


针对Kafka故障设计的高可用场景

既然系统架构如此,那么大家思考一下,数据计算系统要推送计算结果到Kafka去,万一Kafka挂了怎么办?此时就必须设计一个针对Kafka的故障高可用机制

就当时而言,刚开始负责这块的工程师选择了一个思考欠佳的技术方案。一旦发现Kafka故障,就会将数据都留存在内存里,不停的重试,直到Kafka恢复才可以,大家看下图的示意。

这个时候就有一个隐患了,万一真的遇上Kafka故障,那么一次计算对应的数据必须全部驻留内存,无法释放,一直重试等待Kafka恢复,这是绝对不合理的一个方案设计。

然后数据计算系统还在不停的加载数据到内存里来处理,每次计算完的数据还无法推送到Kafka,全部得留存在内存里等着,如此循环往复,必然导致内存里的数据越来越多。


无法释放的内存最终导致OOM

正是因为有这个机制的设计,所以有一次确实发生了Kafka的短暂临时故障,也因此导致了系统无法将计算后的数据推送给Kafka

然后所有数据全部驻留在内存里等待,并且还在不停的加载数据到内存里来计算。

内存里的数据必然越来越多,每次Eden区塞满之后,大量存活的对象必须转入老年代中,而且这些老年代里的对象还是无法释放掉的。

老年代最终一定会满,而且最终一定会有一次Eden区满之后,一大批对象要转移到老年代,结果老年代即使Full gc之后还是没有空间可以放的下,最终就会导致内存溢出。然后线上收到报警说内存溢出。

最后这个系统全线崩溃,无法正常运行。


故障修复

其实很简单,当时就临时直接取消了Kafka故障下的重试机制,一旦Kafka故障,直接丢弃掉本地计算结果,允许释放大量数据占用的内存。后续的话,将这个机制优化为一旦Kafka故障,则计算结果写本地磁盘,允许内存中的数据被回收。

这就是一个非常真实的线上系统设计不合理导致的内存溢出问题,想必大家看了这个案例后,一定对内存溢出问题感触更加深刻了。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
算法 Java 关系型数据库
掌握这3个技巧,你也可以秒懂JAVA性能调优和jvm垃圾回收
JVM 是一个虚拟化的操作系统,类似于 Linux 和 Window,只是他被架构在了操作系统上进行接收 class 文件并把 class 翻译成系统识别的机器码进行执行,即 JVM 为我们屏蔽了不同操作系统在底层硬件和操作指令的不同。
24 0
|
3月前
|
算法 Java
太狠了!阿里技术专家撰写的电子版JVM&G1 GC实战,颠覆了传统认知
JVM是Java语言可以跨平台、保持高发展的根本,没有了 JVM, Java语言将失去运行环境。针对 Java 程序的性能优化一定不可能避免针对JVM 的调优,随着 JVM 的不断发展,我们的应对措施也在不断地跟随、变化,内存的使用逐渐变得越来越复杂。所有高级语言都需要垃圾回收机制的保护,所以 GC 就是这么重要。
|
3月前
|
缓存 Java 中间件
jvm性能调优实战 -55RPC调用引发的OOM故障
jvm性能调优实战 -55RPC调用引发的OOM故障
58 0
|
3月前
|
缓存 监控 Java
jvm性能调优实战 - 48无限循环调用和没有缓存的动态代理引起的OOM
jvm性能调优实战 - 48无限循环调用和没有缓存的动态代理引起的OOM
40 0
|
3天前
|
存储 算法 Java
JVM 数据区域
JVM 数据区域
|
9天前
|
缓存 监控 Java
深入理解Java虚拟机(JVM)性能调优
【4月更文挑战第18天】本文探讨了Java虚拟机(JVM)的性能调优,包括使用`jstat`、`jmap`等工具监控CPU、内存和GC活动,选择适合的垃圾回收器(如Serial、Parallel、CMS、G1),调整堆大小和新生代/老年代比例,以及代码优化和JIT编译策略。通过这些方法,开发者能有效提升应用性能并应对复杂性挑战。性能调优是持续过程,需伴随应用演进和环境变化进行监控与优化。
|
11天前
|
监控 前端开发 安全
JVM工作原理与实战(十四):JDK9及之后的类加载器
JVM作为Java程序的运行环境,其负责解释和执行字节码,管理内存,确保安全,支持多线程和提供性能监控工具,以及确保程序的跨平台运行。本文主要介绍了JDK8及之前的类加载器、JDK9及之后的类加载器等内容。
19 2
|
11天前
|
监控 Java 关系型数据库
JVM工作原理与实战(十三):打破双亲委派机制-线程上下文类加载器
JVM作为Java程序的运行环境,其负责解释和执行字节码,管理内存,确保安全,支持多线程和提供性能监控工具,以及确保程序的跨平台运行。本文主要介绍了打破双亲委派机制的方法、线程上下文类加载器等内容。
14 2
|
11天前
|
存储 XML 监控
JVM工作原理与实战(三):字节码文件的组成
JVM作为Java程序的运行环境,其负责解释和执行字节码,管理内存,确保安全,支持多线程和提供性能监控工具,以及确保程序的跨平台运行。本文主要介绍了字节码文件的基础信息、常量池、方法、字段、属性等内容。
26 6
|
1月前
|
存储 Java 编译器
【JVM】运行时数据区域
【JVM】运行时数据区域
20 0