带你读《Elastic Stack 实战手册》之29:——3.4.2.14.分页搜索(上)

本文涉及的产品
Elasticsearch Serverless通用抵扣包,测试体验金 200元
简介: 带你读《Elastic Stack 实战手册》之29:——3.4.2.14.分页搜索(上)

3.4.2.14.分页搜索


创作人张超

 

在查询场景中,从 Elasticsearch 中取得结果,根据不同场景,有多种不同的方式。

 

l 通过 from 、size 进行分页

l 通过 scroll 拉取大量数据

l 通过 search_after 拉取大量数据

 

每种方式有其各自的使用场景,或者说他们是为了解决某种场景而设计的。

 

from + size

 

搜索引擎的场景,类似 google 搜索,翻页操作一般是人为触发的,并且人的行为一般不会翻页太多,from+size 这种最经典的翻页模式是为了解决用户对于 TopN 的需求,用户希望找到TopN 个最匹配的文档。其使用方式类似 SQL 中的 LIMIT关键字,Elasticserach 使用 from 和 size 两个参数来控制翻页:

 

l size: 要返回的结果数量,默认为 10

l from: 要跳过的结果数量,默认为 0

 

如果每页显示 5 条结果,下面的命令可以得到 1-3 页的结果:


GET /_search?size=5
GET /_search?size=5&from=5
GET /_search?size=5&from=10

from 和 size 也可以放到查询请求的 body 中。


分页搜索实现方式是:

 

1、每个分片各自查询的时候先构建 from+size 的优先队列,然后将所有的文档 ID 和排序值返回给协调节点。

2、协调节点创建 size 为 number_of_shards * (from + size) 的优先队列,对数据节点的返回结果进行合并,取全局的 from+size 返回给客户端

 

这种工作模式的主要代价在于,协调节点需要等待所有分片返回结果,然后再全局排序。因此会创建非常大的优先队列,需要控制分页的深度,Elasticsearch 默认最多返回 10000 个文档。但是有些时候,用户需要遍历取回所有文档,甚至可以不关心排序。在数据库中取回全部结果可以使用游标查询的方式,类似的概念在 Elasticsearch 中叫做 scroll。


scroll

 

scroll 可以用于拉取全量数据,他的工作模式不需要像 from + size 一样全局排序,因此没有深分页的代价,例如 reindex 本质上就是 scroll+bulk。使用 scroll 可以简单的在查询语句中添加 scroll 参数:


POST /my-index-000001/_search?scroll=1m

上面的查询语句会返回一个 ID,后面可以根据这个 ID 顺序拉取结果:


POST /my-index-000001/_search/scroll                                                               
{
  "scroll" : "1m",                                                                 
  "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ==" 
} 

Elasticsearch 将查询后的上下文保存在服务端,因此客户端可以依据这个 scroll_id 依次获取后续的数据。



这个上下文也必然有一个生命周期,因为他会一直占用服务端资源。在这个例子中,我们设置 scroll 窗口保存 1 分钟的时间。1 分钟之内,你都可以使用 scroll_id 来拉取数据。当然,你也可以在拉取完成之后根据 scroll_id 手工清理上下文。


 《Elastic Stack 实战手册》——三、产品能力——3.4.入门篇——3.4.2.Elasticsearch基础应用——3.4.2.14.分页搜索(下) https://developer.aliyun.com/article/1230186

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
ElasticSearch 最新快速入门教程
本课程由千锋教育提供。全文搜索的需求非常大。而开源的解决办法Elasricsearch(Elastic)就是一个非常好的工具。目前是全文搜索引擎的首选。本系列教程由浅入深讲解了在CentOS7系统下如何搭建ElasticSearch,如何使用Kibana实现各种方式的搜索并详细分析了搜索的原理,最后讲解了在Java应用中如何集成ElasticSearch并实现搜索。  
相关文章
|
编解码 C++
Google Earth Engine ——1958-2020年TerraClimate 全球陆地表面每月气候和气候水平衡的数据集
Google Earth Engine ——1958-2020年TerraClimate 全球陆地表面每月气候和气候水平衡的数据集
1468 0
Google Earth Engine ——1958-2020年TerraClimate 全球陆地表面每月气候和气候水平衡的数据集
|
12月前
|
数据可视化 API 数据库
低代码/无代码运动:软件开发的未来还是乌托邦?
低代码/无代码(LCNC)平台近年来在软件开发领域引起广泛关注,通过简化界面和预构建模块,使非技术用户也能快速构建应用。本文探讨其潜在影响、优势与挑战,以及对传统开发的影响。核心优势包括快速开发、易于使用和成本效益;主要挑战则涉及定制化限制、性能问题和技术锁定。LCNC平台促使开发者角色转变,促进业务与IT融合,并加速创新。尽管优势明显,但其局限性意味着不会完全取代传统开发,而是成为重要工具之一。
|
7月前
|
机器学习/深度学习 算法 文件存储
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
203 4
RT-DETR改进策略【模型轻量化】| MoblieNetV3:基于搜索技术和新颖架构设计的轻量型网络模型
|
存储 安全 前端开发
第五章 跨域资源共享(CORS):现代Web开发中的关键机制
第五章 跨域资源共享(CORS):现代Web开发中的关键机制
259 1
|
11月前
|
机器学习/深度学习 人工智能 PyTorch
网页也能跑大模型?
本故事主要介绍在网页上部署模型的来龙去脉,你想问的问题,可能都可以在这里找到答案
163 3
网页也能跑大模型?
|
存储 Java
JSP中实现留言页面的编写并将留言信息展示出来
这篇文章介绍了如何在JSP中编写留言页面,并通过JavaBean类存储用户留言信息,同时展示了留言信息的展示方法。
JSP中实现留言页面的编写并将留言信息展示出来
|
12月前
|
机器学习/深度学习 人工智能 测试技术
探索软件测试的未来之路:AI与自动化的交汇点
在数字时代的浪潮中,软件测试作为保障产品质量的关键步骤,正面临前所未有的挑战与机遇。本文将带你一探究竟,从AI技术如何革新传统测试流程,到自动化测试工具的崛起,再到这两者如何共同塑造软件测试的未来。我们将通过具体案例,揭示这一变革如何影响测试工程师的角色,以及测试流程的效率和效果。准备好跟随我,一起走进智能测试的新纪元吧!
|
算法 安全 Linux
真实世界的密码学(二)(2)
真实世界的密码学(二)
226 2
|
Java Linux Shell
配置系统PATH环境变量
配置系统PATH环境变量
|
存储 缓存 负载均衡
TCP、UDP原理、DNS协议、CDN原理
TCP、UDP原理、DNS协议、CDN原理
643 0