OpenSearch 使用二三事

简介: 先交代下我们的使用场景。我们是把一张分库分表的逻辑表导入了 OpenSearch,建立了相关索引,供后台管理界面查询使用。最近在使用的过程中遇到了几个问题。记之。 ## 查询的数据最多只有 5000 条 我们有一个数据导出功能,当导出的数据超过 5000 条时,导出的表格里就只有 5000 条。我们使用的是 search 接口分页查,看日志发现当 startHit 到 5000 左右就返回

先交代下我们的使用场景。我们是把一张分库分表的逻辑表导入了 OpenSearch,建立了相关索引,供后台管理界面查询使用。最近在使用的过程中遇到了几个问题。记之。

查询的数据最多只有 5000 条

我们有一个数据导出功能,当导出的数据超过 5000 条时,导出的表格里就只有 5000 条。我们使用的是 search 接口分页查,看日志发现当 startHit 到 5000 左右就返回失败了。咨询了下得知 search 接口为了保证能及时返回,当 startHit + hit > 5000 时就返回失败了。如果需要获取全量的数据需要用 scroll 接口。V3 可以参照这个来写,scroll迭代查询Demo,V2 的文档不太完善,试了几次才试出来。。。

query 子句长度不能超过 1k

我们的查询页面需要按照多个维度来查询,比如日期,发货仓,到货地等,而且都是多选,当日期跨度范围比较大的时候,query 子句的日期部分是这样的:

 timekey: "2017-06-01" OR  timekey: "2017-06-02” OR timekey: "2017-06-03” ...

当日期跨度比较大的时候发现查询又失败了。咨询了下 Hooch,query 子句编码后长度不能超过 1k,filter 子句长度不能超过 4k。然后教了我一种简洁的写法。

timekey:"2017-06-01"|"2017-06-02"|"2017-06-03” ...

然而只是这样还是不够,日期只是我的查询条件之一,几个条件加起来很容易超过 1k。比如到货地,当按照某个行政级别(比如省)查询时,需要把该级别和该级别下面各级别的数据都筛选出来,如果也这样遍历的话很容易就超了。想过把部分条件放到 fitler 子句里,但是 fitler 子句只支持 “> <“ 这样的过滤条件。另外想到的就是分多次查,但是分多次多个查询条件怎么拆分,还有怎么做分页,想想就觉得很痛苦。

继续翻文档的过程中,发现 OpenSearch 支持 “^31” 这样的语法来查 31 开头的数据(字段类型需是 SHORT_TEXT,分词模式选模糊分词),而地址 id 下级地址和上级地址的前缀又是一样的,通过这种方式很容易匹配一个行政级别下面的数据。同样的思路,其他字段的查询语句超长时,我也可以通过求公共前缀的方式来压缩长度。

为什么在使用 MySQL 的时候没遇到过 sql 过长的问题

联想了一下,对语句长度做限制应该是普遍存在的,为什么在之前使用 MySQL 批量插入的时候没遇到过类似问题。查了下,MySQL server 的max_allowed_packet 参数是限制接收到的包体长度的,默认值是 1M。

查询有 doc 丢失

运营同学在使用过程中发现有时会丢失一些数据。继续咨询,得到的回复是这样的

引擎更新文档是一整篇更新,更新流程是 先 delete 再 add。所以会有一瞬间找不到文档

这个问题目前没有解决方法,记录更新得越频繁就越容易出现这种情况。对于“频繁”没有具体的参数值,但是一秒钟有几次更新的话会被认为频繁。

最后,感谢 @Hooch 和 @本岩的答疑。

相关实践学习
以电商场景为例搭建AI语义搜索应用
本实验旨在通过阿里云Elasticsearch结合阿里云搜索开发工作台AI模型服务,构建一个高效、精准的语义搜索系统,模拟电商场景,深入理解AI搜索技术原理并掌握其实现过程。
目录
相关文章
|
消息中间件 Kubernetes 监控
Fluentd/FluentBit K8s日志采集方案介绍
Fluent Bit 是一个开源的多平台日志采集器,旨在打造日志采集处理和分发的通用利器。2014 年,Fluentd 团队预测对于嵌入式 Linux 和 Gateways 等受约束的环境,需要更轻量级的日志处理器,于是便开发了Fluent Bit,并把该项目建设成为Fluentd 生态系统的一部分。
4120 0
|
存储 JSON Java
SpringBoot集成AOP实现每个接口请求参数和返回参数并记录每个接口请求时间
SpringBoot集成AOP实现每个接口请求参数和返回参数并记录每个接口请求时间
1574 2
|
2月前
Feign 调用超时,会自动重试吗?如何设置?
Feign默认不重试超时请求,但可通过Retryer配置重试策略。可设置最大重试次数、间隔等参数,并结合@FeignClient的configuration属性启用,提升服务调用的容错能力。
215 0
|
7月前
|
JSON 安全 测试技术
什么是API接口测试?这可能是全网最全的教程了!
API 是应用程序间的“中间人”,用于实现通信和数据交换。随着微服务架构的普及,API 数量激增,其质量对系统稳定性至关重要。API 测试可验证功能、性能与安全性,帮助开发者在部署前发现并修复问题,提升系统可靠性。测试内容包括请求方法、URL、请求头、请求体、响应状态码与响应数据等。常用工具如 Postman、AREX 可辅助测试,确保 API 在不同场景下的正确性与稳定性。
|
Kubernetes 测试技术 数据库
详解微服务应用灰度发布最佳实践
相对于传统软件研发,微服务架构下典型的需求交付最大的区别在于有了能够小范围真实验证的机制,且交付单位较小,风险可控,灰度发布可以弥补线下测试的不足。本文从 DevOps 视角概述灰度发布实践,介绍如何将灰度发布与 DevOps 工作融合,快来了解吧~
33788 19
|
11月前
|
存储 弹性计算 固态存储
阿里云服务器配置怎么选择?根据用户类型及使用场景配置推荐
如何选择阿里云服务器配置?2025年全解析!个人用户可选68元/年的轻量应用服务器(2核2G、200M带宽),企业用户推荐199元/年的ECS通用算力型u1实例(2核4G、5M带宽)。针对不同需求,还有内存型、计算型、高主频型及GPU服务器等多规格实例。带宽选择需根据访问量,小流量应用3M即可,高流量建议10M起步。存储方面,系统盘40GB够用,数据盘按需选择ESSD或SSD云盘,确保I/O性能满足业务需求。阿小云为你整理最新攻略,助你高效选型!
|
消息中间件 Java 对象存储
数据一致性挑战:Spring Cloud与Netflix OSS下的分布式事务管理
数据一致性挑战:Spring Cloud与Netflix OSS下的分布式事务管理
285 2
|
数据采集 运维 监控
ARMS学习
【8月更文挑战第21天】
468 1
|
Java Maven 微服务
【Java用法】微服务之间的相互调用方式之一,通过FeignClient客户端调用其他微服务的方法
【Java用法】微服务之间的相互调用方式之一,通过FeignClient客户端调用其他微服务的方法
718 0
|
数据处理 Apache 流计算
【Flink】Flink的CEP机制
【4月更文挑战第21天】【Flink】Flink的CEP机制