带你读《Elastic Stack 实战手册》之84：——4.3.3.Elasticsearch 性能优化之内存和熔断浅析（上）

2023-05-23 510

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

简介： 带你读《Elastic Stack 实战手册》之84：——4.3.3.Elasticsearch 性能优化之内存和熔断浅析（上）

4.3.3.Elasticsearch 性能优化之内存和熔断浅析

创作人：齐乐

审稿人：周海清

在 Elasticsearch 生产环境中，性能问题一直是各厂商最头疼的问题，而其中的痛点就是内存

相关。Elasticsearch 作为当前搜索引擎市场的 No.1，其显著特点就是检索速度非常快。之所以

Elasticsearch 检索速度快，离不开其底层的合理存储结构以及对内存的充分利用，其中包括大

量的缓存。由于 Elasticsearch 和其底层依赖的 Lucene 均为内存的使用大户，在生产环境中

经常会遇到一些内存相关的问题以及想要优化的欲望，本文主要浅析 Elasticsearch 内存使用

情况和其自带的内存保险——熔断机制。

首先我们会分析一些生产环境中遇到的内存相关问题；然后我们会从 JVM 层面以及 Elasticse

-arch 层面分别介绍内存相关的配置和使用；最后我们会学习 Elasticsearch 的内存熔断机制。

1. 生产中遇到的内存相关问题

你是否也经常在 Elasticsearch 的生产环境中遇到一下问题？

·Elasticsearch 内存占用过高且持续不会缓解

·节点频繁 GC 且耗时较长

· 查询响应时间过长甚至直接失败

· 修改相关功能或性能配置直接导致集群出现 OOM 等异常情况

· ......

希望本篇文章能给你带来一些启发或者问题的解决方案。

2. JVM 相关配置

本章主要对 Elasticsearch 的 JVM 配置进行基本介绍：由于 Elasticsearch 运行于 JVM 容器

之中，合理的配置 JVM 参数可以达到更好的内存使用效果，以下从内存大小和垃圾回收两个方

面分析：

本章主要对 Elasticsearch 的 JVM 配置进行基本介绍：由于 Elasticsearch 运行于 JVM 容器

之中，合理的配置 JVM 参数可以达到更好的内存使用效果，以下从内存大小和垃圾回收两个方

面分析：

·内存大小

Xms 和 Xmx 设置为相同的值，且不要超过系统内存的 50%。一般建议配置在 JVM 指针

压缩技术最大值范围之内，可以通过日志中的 compressed ordinary object pointers [tru

e] 来判断是否开启了指针压缩；如果有特殊需求(例如查询需要占用大量内存的情况)，可以

将内存调大，但是需要配置 40GB 乃至 50GB 以上的内存才能追平指针压缩技术带来的性

能优化，基本不建议这样使用(对 CPU 和 GC 等都有性能损耗)。

·垃圾回收器

使用 G1 相比 CMS 更适合大内存使用场景，一般默认参数即可：

G1ReservePercent：老年代预留给新生代对象晋升的分配担保比例。如果新生代经常晋升

失败而导致 Full GC，可以适当调高此阈值，意味着降低了老年代的实际可用空间，使用

Elasticsearch 默认配置即可。

InitiatingHeapOccupancyPercent：触发老年代全局并发标记的比例，使用 Elasticsearc-

h 默认配置即可。

MaxGCPauseMillis：GC 最大的停顿毫秒数。如果业务对 GC 比较敏感，可以适当调小，但

是会增加 CPU 的开销，建议 50-200 之间。

3. ES 内存的使用

本章主要浅析 Elasticsearch 将内存使用到了哪里，可以参考图 1 和图 2 ：Elasticsearch 使

用的内存分为堆内存和堆外内存；同时堆内内存又分为可以 GC 和不可以 GC，不可 GC 的部

分采用 LRU 方式进行缓存更新。

图 1 Elasticsearch 内存分布

图 2 Elasticsearch 堆内存分布

接下来具体分析每个占用内存的部分：

·indices.queries.cache.size

默认 10%，node 级别，用于缓存 filter 查询。

·indices.fielddata.cache.size

默认无界，正排索引缓存及全局序数，用于聚合排序等操作。

·index.requests.cache.size

默认 1%，shard 级别，查询请求缓存，不缓存 hits，只缓存聚合结果。

·Segment Memory

倒排索引相关内容，且与上述三个缓存不同，调用 POST /_cache/clear 不能清除。处理这

部分内存的方式有以下几种：

○ 提前规划好 Mapping：不需要存储的内存不存储(评分，词距，词频和偏移等)。

○ Force Merge：可以清理 Deleted 的文档，将大量较小的 Segment 和并可以占用更少的

内存且加快查询。

○ 关闭或者删除不需要使用的索引，也可采用快照和可搜索快照方式处理。

另外 ES 7.X（ Lucene 8.X ）以后将 FST 从堆内存移到了堆外内存，大大减少了 Segm-

ent Memory 对内存的占用（线上测试一个 5GB 的 Segment 占用内存减少了 400 多倍）。

具体实现方案是将 FST 从堆内存中剔除，直接交由 MMAP 管理，即通过 MMAP 读取倒

排索引的索引文件.tip。

 indices.memory.index_buffer_size

默认 10%， bulk 写请求的缓存优化配置。

 indexing_pressure.memory.limit

默认 10%，用于处理数据索引压力，即数据写入过程中的路由和主副同步工作。

 使用中耗费的内存

非业务高峰期情况下保证集群堆内存负载在 70% 以下较为健康，超过这个值代表数据量过

多。除此以外，业务高峰期集群会耗费大量内存，主要是聚合等查询请求占用，前期设置可

以有效避免集群这部分压力过大，包括 Mapping 优化、预计算（使用 Ingest Pipeline）等

多种方式减小集群查询的压力。

·脚本相关及其他未知部分

脚本(正则)、pipeline 和 scroll 等均会占用部分内存。

了解了 Elasticsearch 内存方面的使用，我们还需要在日常维护集群时监控它们，对此 Elastic

-search 提供了丰富的 API：

·GET _cat/nodes?h=name,*heap*,*memory*,*Cache*&format=json 可以监控到节点的部

分内存使用情况和缓存命中情况。

·GET _cat/indices/test1?h=*memory*&format=json 可以监控某个索引部分内存占用情况。

·GET _cat/indices/?s=segmentsMemory:desc&v&h=index,segmentsCount,segmentsMem

ory,memoryTotal,mergesCurrent,mergesCurrentDocs,storeSize 可以查看集群内每个索引

Segment 的整体情况和合并情况。

·GET _cat/segments/test1?v 可以查看索引内每个段占用内存情况。

·GET _nodes/stats/indexing_pressure?human7.X 版本可以查看 indexing pressure 情

况。

建议对 Elasticsearch 提供的监控类 API 进行较为熟练的运用，包括但不限于：使用 ?help 进

行 API 的学习、查看配置信息时使用 include_defaults 展示默认配置及使用 flat_settings 展铺

平配置、使用 human 可视化以及 bytes 返回结果单位设置等。

《Elastic Stack 实战手册》——四、应用实践——4.3 性能优化场景——4.3.3.Elasticsearch 性能优化之内存和熔断浅析（中）: https://developer.aliyun.com/article/1225156?spm=a2c6h.13148508.setting.19.438f4f0e18NXNE

带你读《Elastic Stack 实战手册》之84：——4.3.3.Elasticsearch 性能优化之内存和熔断浅析（上）

4.3.3.Elasticsearch 性能优化之内存和熔断浅析

1. 生产中遇到的内存相关问题

2. JVM 相关配置

3. ES 内存的使用

检索分析服务 Elasticsearch版

热门文章

最新文章

相关产品

相关课程

相关电子书

相关实验场景