Elasticsearch JVM 堆内存使用率飙升,怎么办?

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
简介: Elasticsearch JVM 堆内存使用率飙升,怎么办?

1、引言

本系列文章介绍如何修复 Elasticsearch 集群的常见错误和问题。

这是系列文章的第四篇,主要探讨:Elasticsearch JVM 堆内存使用率飙升,怎么办?

第一篇:Elasticsearch 磁盘使用率超过警戒水位线,怎么办?

第二篇:Elasitcsearch CPU 使用率突然飙升,怎么办?

第三篇:Elasticsearch 断路器报错,怎么办?

2、症状:高 JVM 内存使用率

高 JVM 内存使用率会降低集群性能并触发断路器错误(导致内存熔断)。

为了防止这种情况发生,如果节点的 JVM 内存使用率持续超过 85%,官方建议采取措施降低内存压力。

3、诊断 JVM 内存压力

3.1 检查 JVM 内存使用情况

借助:node stats API 进行排查。

GET _nodes/stats?filter_path=nodes.*.jvm.mem.pools.old

召回结果如下:

{
"nodes" : {
"J2-fr3wzSqqJk9cwoi2urw" : {
"jvm" : {
"mem" : {
"pools" : {
"old" : {
"used_in_bytes" : 179796016,
"max_in_bytes" : 1798569984,
"peak_used_in_bytes" : 179796016,
"peak_max_in_bytes" : 1798569984
}
}
}
}
}
}
}

堆内存使用率为:used_in_bytes / max_in_bytes = 179796016/ 1798569984 = 9.99 6%,接近 10%。

能和 kibana 可视化监控结果保持一致:

3.2 垃圾回收日志检查

随着内存使用量的增加,垃圾收集变得更加频繁并且需要更长的时间。

你可以在 elasticsearch.log 中跟踪垃圾收集事件的频率和时长。

例如,以下事件表明 Elasticsearch 在过去 40 秒中花费了超过 50%(21 秒)执行垃圾收集。

[timestamp_short_interval_from_last][INFO ][o.e.m.j.JvmGcMonitorService] [node_id] [gc][number] overhead, spent [21s] collecting in the last [40s]

推荐阅读:你看懂 Elasticsearch Log 中的 GC 日志了吗?

https://elasticsearch.cn/article/812

4、降低JVM 堆内存使用率方案

4.1 减少分片数

关于分片的几点认知:

第一:搜索请求是以分片为单位发起的。

至少 7.16 版本之前是,如下图示更能说明问题。

https://www.elastic.co/cn/blog/three-ways-improved-elasticsearch-scalability

这暗示了什么?

必然是:分片越多,检索越慢。

因为:跨大量分片的搜索可能会耗尽节点的搜索线程池,这可能导致吞吐量低和搜索速度慢。

第二:每个索引和分片都有内存和 CPU 开销。

每个索引和每个分片都需要一些内存和 CPU 资源。

在大多数情况下,一小组大分片比许多小分片使用更少的资源。

为什么呢?解释一下:

  • 分片的底层是 Lucene 分段。
  • 段的元数据会保留在 JVM 堆内存中,以便快速检索。
  • 分片越多,意味着分段会越多,进而分段元数据会越多,JVM 堆内存使用率会越高。反之,则相反。
第三:Elasticsearch 会在相同角色的节点间平衡分片。

节点角色划分是 7.x 高版本新的节点定义方式,其目的是:节点用途更明确。

当添加新节点或某节点出故障时,Elasticsearch 会自动在相同角色层的剩余节点之间重新平衡索引的分片。


关于减少分片数,更确切的是如何合理规划分片,官方建议如下:

  • 第一:尽量避免 delete_by_query 删除文档,更好的方案是直接删除索引。

Elasticsearch 中为什么会有大量文档插入后变成 deleted?

  • 第二:使用 datastrem 和 ILM 索引生命周期管理管理时序数据。

Elasticsearch 7.X data stream 深入详解

干货 | Elasticsearch 索引生命周期管理 ILM 实战指南

  • 第三:分片大小控制在 10GB-50GB。

另有 30GB-50GB一说,下文有过讨论:

Elasticsearch究竟要设置多少分片数?

  • 第四:控制在每 GB 堆内存 20 个分片以内。

也就是说:具有 30GB 堆内存的节点最多应该有 600 个分片。

  • 第五:避免单个节点分片过多、负载过重。

如果单个节点包含太多分片,且索引量很大,则该节点可能会出现问题。

可以使用如下命令行加以控制:

PUT my_index_001/_settings
{
"index": {
"routing.allocation.total_shards_per_node": 5
}
}

更多实践推荐阅读:

https://www.elastic.co/guide/en/elasticsearch/reference/current/size-your-shards.html

4.2 避免复杂检索

复杂搜索会占用大量的内存空间。建议启用:慢日志进行排查。

导致内存使用率飙升的复杂查询,通常具备如下的特点:

  • size 召回值设置的巨大;
  • 包含分桶值很大的聚合操作或者聚合嵌套很深;
  • 包含极其耗费资源的查询,举例:script 查询、fuzzy 查询、regexp 查询、prefix 查询、wildcard 查询、text 或 keyword 上的 range 查询。

为避免复杂查询,常规措施如下:

  • 限制:index.max_result_window 的大小。
PUT _settings
{
  "index.max_result_window": 5000
}
  • 设置 search.max_buckets cluster 以限制分桶值大小。
PUT _cluster/settings
{
  "persistent": {
    "search.max_buckets": 20000,
  }
}
  • 设置 search.allow_expensive_queries 直接禁用耗费资源的查询。
PUT _cluster/settings
{
  "persistent": {
    "search.allow_expensive_queries": false
  }
}

4.3 避免 Mapping “爆炸”

定义过多的字段或嵌套过深的字段会导致使用大量内存,出现“Mapping 爆炸" 现象。

为防止“Mapping 爆炸“,使用映射限制设置来限制字段映射的数量。

PUT my_index_001/_settings
{
"index.mapping.total_fields.limit": 100
}

更多类似参数,推荐阅读:

https://www.elastic.co/guide/en/elasticsearch/reference/current/mapping-settings-limit.html

4.4 分散批量请求

批量请求虽然比单个请求更有效,但大批量写入(以 bulk 操作为代表)或多搜索请求(以 _msearch 为代表)仍然会产生较高的 JVM 内存压力。

如果可能,提交较小(小是个相对值,需要根据集群性能测算出适合自己集群的经验值)的请求并在它们之间留出更多时间时隔。

4.5 升级节点内存

繁重的写入操作和搜索负载过重均会导致高 JVM 内存压力。

为了更好地处理繁重的工作负载,在其他方法都不灵的情况下,可以考虑通过为节点内存扩容以达到升级节点目的。

这是无法之法,这是万能之法。

5、小结

多了解导致 JVM 飙升的操作,业务开发方面及早避免和规避相关操作,做好前置规划和布局很关键。

做好监控和核心指标的预警工作,“防患于未然”。

你的实际业务场景有没有遇到类似问题,你是怎么解决和避免的?欢迎留言讨论。

参考

1.  https://www.elastic.co/guide/en/elasticsearch/reference/current/fix-common-cluster-issues.html

2. https://www.elastic.co/guide/en/elasticsearch/reference/current/size-your-shards.html

推荐

1、重磅 | 死磕 Elasticsearch 方法论认知清单(2021年国庆更新版)

2Elasticsearch 7.X 进阶实战私训课(口碑不错)

3、如何系统的学习 Elasticsearch ?


更短时间更快习得更多干货!

和全球近 1600+ Elastic 爱好者一起精进!

比同事抢先一步学习进阶干货!


相关实践学习
使用阿里云Elasticsearch体验信息检索加速
通过创建登录阿里云Elasticsearch集群,使用DataWorks将MySQL数据同步至Elasticsearch,体验多条件检索效果,简单展示数据同步和信息检索加速的过程和操作。
ElasticSearch 入门精讲
ElasticSearch是一个开源的、基于Lucene的、分布式、高扩展、高实时的搜索与数据分析引擎。根据DB-Engines的排名显示,Elasticsearch是最受欢迎的企业搜索引擎,其次是Apache Solr(也是基于Lucene)。 ElasticSearch的实现原理主要分为以下几个步骤: 用户将数据提交到Elastic Search 数据库中 通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据 当用户搜索数据时候,再根据权重将结果排名、打分 将返回结果呈现给用户 Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索,具有接近实时的搜索,并支持多租户。
相关文章
|
19天前
|
存储 算法 Java
散列表的数据结构以及对象在JVM堆中的存储过程
本文介绍了散列表的基本概念及其在JVM中的应用,详细讲解了散列表的结构、对象存储过程、Hashtable的扩容机制及与HashMap的区别。通过实例和图解,帮助读者理解散列表的工作原理和优化策略。
29 1
散列表的数据结构以及对象在JVM堆中的存储过程
|
1月前
|
存储 安全 Java
jvm 锁的 膨胀过程?锁内存怎么变化的
【10月更文挑战第3天】在Java虚拟机(JVM)中,`synchronized`关键字用于实现同步,确保多个线程在访问共享资源时的一致性和线程安全。JVM对`synchronized`进行了优化,以适应不同的竞争场景,这种优化主要体现在锁的膨胀过程,即从偏向锁到轻量级锁,再到重量级锁的转变。下面我们将详细介绍这一过程以及锁在内存中的变化。
37 4
|
3月前
|
存储 算法 Java
惊!Java程序员必看:JVM调优揭秘,堆溢出、栈溢出如何巧妙化解?
【8月更文挑战第29天】在Java领域,JVM是代码运行的基础,但需适当调优以发挥最佳性能。本文探讨了JVM中常见的堆溢出和栈溢出问题及其解决方法。堆溢出发生在堆空间不足时,可通过增加堆空间、优化代码及释放对象解决;栈溢出则因递归调用过深或线程过多引起,调整栈大小、优化算法和使用线程池可有效应对。通过合理配置和调优JVM,可确保Java应用稳定高效运行。
142 4
|
14天前
|
Arthas 监控 Java
JVM进阶调优系列(9)大厂面试官:内存溢出几种?能否现场演示一下?| 面试就那点事
本文介绍了JVM内存溢出(OOM)的四种类型:堆内存、栈内存、元数据区和直接内存溢出。每种类型通过示例代码演示了如何触发OOM,并分析了其原因。文章还提供了如何使用JVM命令工具(如jmap、jhat、GCeasy、Arthas等)分析和定位内存溢出问题的方法。最后,强调了合理设置JVM参数和及时回收内存的重要性。
|
12天前
|
Java Linux Windows
JVM内存
首先JVM内存限制于实际的最大物理内存,假设物理内存无限大的话,JVM内存的最大值跟操作系统有很大的关系。简单的说就32位处理器虽然可控内存空间有4GB,但是具体的操作系统会给一个限制,这个限制一般是2GB-3GB(一般来说Windows系统下为1.5G-2G,Linux系统下为2G-3G),而64bit以上的处理器就不会有限制。
11 1
|
1月前
|
缓存 算法 Java
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
这篇文章详细介绍了Java虚拟机(JVM)中的垃圾回收机制,包括垃圾的定义、垃圾回收算法、堆内存的逻辑分区、对象的内存分配和回收过程,以及不同垃圾回收器的工作原理和参数设置。
69 4
JVM知识体系学习六:JVM垃圾是什么、GC常用垃圾清除算法、堆内存逻辑分区、栈上分配、对象何时进入老年代、有关老年代新生代的两个问题、常见的垃圾回收器、CMS
|
1月前
|
存储 缓存 算法
JVM核心知识点整理(内存模型),收藏再看!
JVM核心知识点整理(内存模型),收藏再看!
JVM核心知识点整理(内存模型),收藏再看!
|
1月前
|
存储 算法 Java
聊聊jvm的内存结构, 以及各种结构的作用
【10月更文挑战第27天】JVM(Java虚拟机)的内存结构主要包括程序计数器、Java虚拟机栈、本地方法栈、Java堆、方法区和运行时常量池。各部分协同工作,为Java程序提供高效稳定的内存管理和运行环境,确保程序的正常执行、数据存储和资源利用。
50 10
|
30天前
|
存储 算法 Java
Java虚拟机(JVM)的内存管理与性能优化
本文深入探讨了Java虚拟机(JVM)的内存管理机制,包括堆、栈、方法区等关键区域的功能与作用。通过分析垃圾回收算法和调优策略,旨在帮助开发者理解如何有效提升Java应用的性能。文章采用通俗易懂的语言,结合具体实例,使读者能够轻松掌握复杂的内存管理概念,并应用于实际开发中。
|
1月前
|
存储 监控 算法
JVM调优深度剖析:内存模型、垃圾收集、工具与实战
【10月更文挑战第9天】在Java开发领域,Java虚拟机(JVM)的性能调优是构建高性能、高并发系统不可或缺的一部分。作为一名资深架构师,深入理解JVM的内存模型、垃圾收集机制、调优工具及其实现原理,对于提升系统的整体性能和稳定性至关重要。本文将深入探讨这些内容,并提供针对单机几十万并发系统的JVM调优策略和Java代码示例。
51 2
下一篇
无影云桌面