OpenSearch 使用二三事

简介: 先交代下我们的使用场景。我们是把一张分库分表的逻辑表导入了 OpenSearch,建立了相关索引,供后台管理界面查询使用。最近在使用的过程中遇到了几个问题。记之。 ## 查询的数据最多只有 5000 条 我们有一个数据导出功能,当导出的数据超过 5000 条时,导出的表格里就只有 5000 条。我们使用的是 search 接口分页查,看日志发现当 startHit 到 5000 左右就返回

先交代下我们的使用场景。我们是把一张分库分表的逻辑表导入了 OpenSearch,建立了相关索引,供后台管理界面查询使用。最近在使用的过程中遇到了几个问题。记之。

查询的数据最多只有 5000 条

我们有一个数据导出功能,当导出的数据超过 5000 条时,导出的表格里就只有 5000 条。我们使用的是 search 接口分页查,看日志发现当 startHit 到 5000 左右就返回失败了。咨询了下得知 search 接口为了保证能及时返回,当 startHit + hit > 5000 时就返回失败了。如果需要获取全量的数据需要用 scroll 接口。V3 可以参照这个来写,scroll迭代查询Demo,V2 的文档不太完善,试了几次才试出来。。。

query 子句长度不能超过 1k

我们的查询页面需要按照多个维度来查询,比如日期,发货仓,到货地等,而且都是多选,当日期跨度范围比较大的时候,query 子句的日期部分是这样的:

 timekey: "2017-06-01" OR  timekey: "2017-06-02” OR timekey: "2017-06-03” ...

当日期跨度比较大的时候发现查询又失败了。咨询了下 Hooch,query 子句编码后长度不能超过 1k,filter 子句长度不能超过 4k。然后教了我一种简洁的写法。

timekey:"2017-06-01"|"2017-06-02"|"2017-06-03” ...

然而只是这样还是不够,日期只是我的查询条件之一,几个条件加起来很容易超过 1k。比如到货地,当按照某个行政级别(比如省)查询时,需要把该级别和该级别下面各级别的数据都筛选出来,如果也这样遍历的话很容易就超了。想过把部分条件放到 fitler 子句里,但是 fitler 子句只支持 “> <“ 这样的过滤条件。另外想到的就是分多次查,但是分多次多个查询条件怎么拆分,还有怎么做分页,想想就觉得很痛苦。

继续翻文档的过程中,发现 OpenSearch 支持 “^31” 这样的语法来查 31 开头的数据(字段类型需是 SHORT_TEXT,分词模式选模糊分词),而地址 id 下级地址和上级地址的前缀又是一样的,通过这种方式很容易匹配一个行政级别下面的数据。同样的思路,其他字段的查询语句超长时,我也可以通过求公共前缀的方式来压缩长度。

为什么在使用 MySQL 的时候没遇到过 sql 过长的问题

联想了一下,对语句长度做限制应该是普遍存在的,为什么在之前使用 MySQL 批量插入的时候没遇到过类似问题。查了下,MySQL server 的max_allowed_packet 参数是限制接收到的包体长度的,默认值是 1M。

查询有 doc 丢失

运营同学在使用过程中发现有时会丢失一些数据。继续咨询,得到的回复是这样的

引擎更新文档是一整篇更新,更新流程是 先 delete 再 add。所以会有一瞬间找不到文档

这个问题目前没有解决方法,记录更新得越频繁就越容易出现这种情况。对于“频繁”没有具体的参数值,但是一秒钟有几次更新的话会被认为频繁。

最后,感谢 @Hooch 和 @本岩的答疑。

相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
目录
相关文章
|
8月前
|
自然语言处理 分布式计算 Java
基于OpenSearch向量检索版和智能问答版搭建企业专属对话搜索系统
本文将介绍如何使用OpenSearch向量检索版和智能问答版,搭建灵活自定义的企业专属对话搜索系统。
1890 1
|
2天前
|
存储 人工智能 自然语言处理
OpenSearch LLM智能问答版全新升级
阿里云OpenSearch LLM智能问答版近期全新升级,新增最新版开源大模型、多模态模型、切片策略升级等产品能力。
|
8月前
|
Web App开发 自然语言处理 搜索推荐
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
513 0
|
4月前
|
自然语言处理 搜索推荐 开发者
OpenSearch 智能问答实验室上线,支持免费体验对话式问答搜索
本文介绍OpenSearch 智能问答实验室上线的场景功能体验。
927 0
|
11月前
|
存储 数据采集 人工智能
重磅再推 | 基于OpenSearch向量检索版+大模型,搭建对话式搜索
阿里云OpenSearch再推面向企业开发者的PaaS方案:基于OpenSearch向量检索版,为企业开发者提供性能表现优秀、性价比优异的向量检索服务,并提供与大模型结合脚本工具,用户可在使用能力可靠的向量检索服务的同时,自由选择文档切片方案、向量化模型、大语言模型。
15110 1
重磅再推 | 基于OpenSearch向量检索版+大模型,搭建对话式搜索
|
11月前
|
存储 SQL 机器学习/深度学习
OpenSearch大模型实践之Havenask篇
ChatGPT在通用任务上表现优秀,但无法解决众多垂直业务领域问题,这也不是ChatGPT模型本身的定位,而是需要通过其生态应用去解决。如何在垂直领域针对特定业务构建企业专属问答并且确保生成内容可控,是垂直领域面临的主要问题,也是从事行业搜索和问答的应用努力的方向。OpenSearch作为行业智能搜索产品,其使命就是去解决这一问题,我们正在做积极的探索。同时Havenask作为云产品OpenSearch和集团内引擎HA3的开源版本,也进行了尝试和探索。
OpenSearch大模型实践之Havenask篇
|
12月前
《阿里云产品手册2022-2023 版》——智能推荐AIRec
《阿里云产品手册2022-2023 版》——智能推荐AIRec
|
11月前
|
自然语言处理 搜索推荐 算法
阿里云OpenSearch重磅推出LLM问答式搜索产品,助力企业高效构建对话式搜索服务
OpenSearch推出LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务,基于内置的LLM大模型提供问答能力,一站式快速搭建问答搜索系统。
11213 6
|
搜索推荐 算法 数据处理
OpenSearch上线实时热搜、个性化底纹功能
热搜和底纹处于搜索整个流程的最上游,通过推荐热门、优质、多样化的查询词,对用户搜索意图起到重要的引导作用。OpenSearch上线实时热搜和个性化底纹功能,满足企业多样化搜索引导需求。
976 1
OpenSearch上线实时热搜、个性化底纹功能
|
机器学习/深度学习 自然语言处理 算法
OpenSearch产品12月1日全新改版上线
智能开放搜索OpenSearch产品改版于2022年12月1日全新上线,满足不同搜索场景业务需求,欢迎大家报名测试体验~
835 0