文档备案控制台

开发者社区大数据与机器学习检索分析服务 Elasticsearch版正文

对于Elasticsearch，search after方式就没法使用了吗？

对于Elasticsearch，search after分页方式，使用es自身的“_id”字段作为排序字段时，报错：[fielddata] Data too large, data for [_id] would be [6334448731/5.8gb] 是什么原因？不允许用_id字段做排序吗？如果文档本身没有唯一值，search after方式就没法使用了吗？

展开

收起

想去床上睡觉 2024-07-03 15:02:21 644 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小Lee

当在Elasticsearch中使用search_after分页方式，并尝试以_id字段作为排序依据时，遇到“[fielddata] Data too large”错误，这是因为_id字段默认并不启用fielddata。当对一个字段进行排序或聚合操作时，Elasticsearch需要将该字段的值加载到内存（即fielddata）中，对于基数高（即具有许多不同值）的字段，这可能会非常消耗内存。显然_id字段在大型索引中会是高基数的，因此可能导致内存溢出。

不允许用_id字段做排序吗？

并不是不允许，而是不推荐直接使用_id进行排序，特别是当数据量大时，因为这会消耗大量内存。但可以通过间接方式实现，比如创建一个带有doc_values属性的额外字段，将_id的值复制到这个字段中，因为doc_values支持排序且更内存高效。

如果文档本身没有唯一值，search after方式就没法使用了吗？

对于search_after，问题不在于文档是否有唯一值，而在于如何高效排序。即使文档中其他字段可能有重复值，search_after依然可以使用，只要排序字段适合分页场景即可。关键是要避免使用会导致大量内存使用的字段，比如未经优化的_id排序。确保排序字段支持高效排序和分页，比如使用keyword类型的字段或者特地为分页优化的字段。如果没有合适的唯一值字段，可以考虑为分页需求设计一个唯一排序标识符。
可参考fielddata内存使用率高问题的排查与处理方法

2024-07-03 16:14:16

赞同 1 展开评论

问答分类：

检索分析服务 Elasticsearch版

问答地址：

开发者社区 > 大数据与机器学习 > 检索分析服务 Elasticsearch版 > 问答

相关问答

检索分析服务 Elasticsearch版

【Elasticsearch】怎么在 idea 中启动 elastic search呢？

617

1

0

非ES集群间数据同步，阿里云Elasticsearch如何进行数据迁移？

1050

1

0

在第三方Elasticsearch迁移至阿里云中，OSS快照、Logstash、ReIndex这三种

1286

1

0

在自建Elasticsearch迁移至阿里云中，OSS快照、Logstash、ReIndex这三种同

1361

1

0

在阿里云Elasticsearch实例间数据迁移中，OSS快照、Logstash、ReIndex这三

1211

1

0

什么用户适合通过OSS快照进行阿里云Elasticsearch集群间的数据迁移？

1265

1

0

什么用户适合通过ReIndex进行阿里云Elasticsearch集群间的数据迁移？

917

1

0

什么用户适合通过Logstash进行阿里云Elasticsearch集群间的数据迁移？

907

1

0

阿里云Elasticsearch如何进行集群间的数据迁移？

1017

1

0

阿里云Elasticsearch什么时候对网络架构进行了调整？

797

1

0

大数据与机器学习

检索分析服务 Elasticsearch版

阿里云检索分析服务Elasticsearch版兼容开源ELK功能，免运维全托管，提升企业数据检索与运维分析能力。

我要提问

相关文章

阿里云 Elasticsearch 日志采集与加工服务：让日志链路少一串组件，多一份稳定

Lake Search：ES x Paimon 让湖上多模态数据可搜可用

更快、更稳、更省：揭秘阿里云 Elasticsearch 存算分离与弹性扩缩

FalconSeek 技术解析：阿里云 Elasticsearch 云原生内核如何让查询性能飙升600%

阿里云 ES AI 引擎版：面向 Agent 场景，为亿级租户、千亿规模向量设计的搜索引擎

热门讨论

热门文章

想快速上手Kibana进行数据分析吗？

需要处理巨量埋点数据是使用ClickHouse还是用Elasticsearch

如何购买白金版Elasticsearch

钉钉知识库文档如何获取，有专用api（全量文档、权限、增量可更新）

【藏经阁一起读（31）】读《Elastic（中国）产品应用实战》，你有哪些心得？

Elasticsearch大量报GC日志：GC (Allocation Failure），请问是什么

【藏经阁一起读（24）】读《Elastic Stack 实战手册》，你有哪些心得？

Elasticsearch 是否受最新的 fastjson 反序列化漏洞的影响？

阿里云Elasticsearch如何安装/卸载OpenSearch插件

Elasticsearch查看每个节点的索引分片

展开全部

Kibana：数据分析的可视化利器

重磅首发 |《Elasticsearch 中国开发者调查报告》探索开发者的现状和未来

【入门指南】使用阿里云Elasticsearch搭建ELK日志系统

【X-Pack解读】阿里云Elasticsearch X-Pack 安全组件功能详解

（ElasticsSearch学习）歌词检索Demo的实现：二. 搭建spring boot+spring data+jest+elasticsearch环境，实现歌词的全文检索

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

时序数据库场景下的Elasticsearch（一）：技术特点简介

【阿里云MVP第五期】Elastic曾勇：Elasticsearch在智能运维领域的应用

【技术实验】Elasticsearch 做数据库系列之一：表结构定义

【云上ELK系列】Logstash迁移Elasticsearch数据方法解读

展开全部

还有其他疑问?