阿里云大数据产品开放搜索(opensearch)常见问题总结及排查思路

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 在使用大数据产品开放搜索(opensearch)过程中难免会遇到问题,我把踩过的坑总结了下,给需要的人看下。不定时更新中......

1.支持多表同属一个数据源。但不支持同一个表有多个数据源。
2.不支持修改源数据表的主键,查询会出现重复。
3.查询分词可以单字分词,以达到查询所有组合的目的。
4.主表绝大多数数据更新情况是10s内,辅表会慢一些,时效性目前没有保证。
5.对于RDS表中的datetime及timestamp类型开放搜索系统会自动将其转化为毫秒数。如果想保留源time格式,可以在rds中转化为string后再导入。
6.搜索引擎最多返回5000条指的是start+hit。一页最多返回500条是因为hit的系统限制是[0,500]。
7.有些飘红有些不飘红的,如果是opensearch的搜索问题。最好在opensearch控制台测试,或者sdk调用opensearch的搜索接口。
8.字符串TEXT类型是用来做索引做分词的,LITERAL可以创建为属性字段
9.按量付费是按配额付费不是实际流量。可以在应用列表页面开通“一键报警”,这样有流量超过85%就会报警可以再紧急扩容。
10.老高级版索引重建触发以后立即执行,新高级版需要单击全量索引构建,触发全量数据导入,否则一直处于等待全量索引构建状态。
11.自定义分词的词条文档上查看最多只能支持8000条,不支持扩展
12.如果同时设置了同义词干预和自动纠错干预,那么同义词干预就不会生效的
13.数据更新属于增量同步,不会引起索引重建。
14.不支持MySQL的view的同步。定时任务每天只会执行一次,一旦当天成功执行了一次,无论如何修改配置,都不会再次执行(仅针对于定时任务,手动可以执行)
15.6015错误码,配额不足,扩容即可。批量更新不会消耗LCU的
16.同一个主账号在同一个区域最多创建2个入门型实例(2018.5.7以后)。
17.数据源,只支持rds-mysql、maxcompute,其他的数据库中的数据,只能通过api、sdk上传到opensearch中。
18.v3.x SDK 可以访问高级版 和 标准版应用,目前v2.x 和 v3.x 这2个SDK版本代码差异较大,代码也不兼容
19.粗排表达式,排序分超过20000 是因为 时间戳, 建议:static_bm25()10000+sales_count5+timeliness(create_time)*3
20.下拉提示问题,60字节以内就是原值保留,超过60字节,才会抽取,例如返回:“清扬 洗发水 洗发露”。
21.目前opensearch的文档数据类型,还不支持json格式的数据,目前的办法只能将json类型数据的key全部以字段的形式上传。如果是不定长度的json数组,确实不太好处理,只能看下业务层次生成的数据,是否可以调整下了。
22.如果您希望搜索'国家天文台厉害吗?' 召回国家天文台的内容,不需要配置模糊分词,可以尝试使用查询分析——词权重。
23.类目预测报错('Flow task for table [110053251_category_prediction)可能是数据量和pv太少
24.粗排exact_boost_match 不能用来-RANK 因为RANK只能设置精排,所以不论是sort=-RANK还是sort=+RANK都不会生效。
25.精排中text_relevance用来替代exact_boost_match,但并不是完全替代。text_relevance是文本相关性函数,顾名思义只能支持TEXT,INT是没有任何意义的。
26.设置text_relevance(name) 然后再使用-RANK; sort=-sale_count;-RANK 这样设置就表示,先按sale_count降序,再按text_relevance(name) 降序排列。按文本匹配度再按销量降序,应该是sort=-RANK;-sales_count

27.报错

  • Hostname in DNS cache was stale, zapped
  • Trying xx.xx.xx.xx...
  • TCP_NODELAY set
  • Connection timed out after 1000 milliseconds
  • Closing connection 0
    没有requestid,考虑是网络问题,还没有请求到opensearch。
    28.把搜索出来的结果按照相关度高的排序(文本相关度高的排序 使用text_relevance 精排表达式)
    选择或者点击率高的结果下次自动增加排序权重(按点击率排序使用sort=-click,需要先按相关度再按点击率排那就是 sort=-RANK;-click)
    支持每秒每库1500条doc 可以同时更新
    29.scroll_id 的有效时长 默认1min
相关实践学习
每个IT人都想学的“Web应用上云经典架构”实战
本实验从Web应用上云这个最基本的、最普遍的需求出发,帮助IT从业者们通过“阿里云Web应用上云解决方案”,了解一个企业级Web应用上云的常见架构,了解如何构建一个高可用、可扩展的企业级应用架构。
MySQL数据库入门学习
本课程通过最流行的开源数据库MySQL带你了解数据库的世界。   相关的阿里云产品:云数据库RDS MySQL 版 阿里云关系型数据库RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务,提供容灾、备份、恢复、迁移等方面的全套解决方案,彻底解决数据库运维的烦恼。 了解产品详情: https://www.aliyun.com/product/rds/mysql 
相关文章
|
3月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据存储计算服务:MaxCompute
阿里云MaxCompute是快速、全托管的TB/PB级数据仓库解决方案,提供海量数据存储与计算服务。支持多种计算模型,适用于大规模离线数据分析,具备高安全性、低成本、易用性强等特点,助力企业高效处理大数据。
156 0
|
3月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
229 0
|
29天前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
130 1
|
1月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
103 1
|
3月前
|
人工智能 分布式计算 DataWorks
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
阿里云ODPS技术栈通过MaxCompute、Object Table与MaxFrame等核心组件,实现了多模态数据的高效处理与智能分析。该架构支持结构化与非结构化数据的统一管理,并深度融合AI能力,显著降低了分布式计算门槛,推动企业数字化转型。未来,其在智慧城市、数字医疗、智能制造等领域具有广泛应用前景。
339 6
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
|
3月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
存储 机器学习/深度学习 人工智能
阿里云ODPS:在AI浪潮之巅,铸就下一代智能数据根基
在智能爆炸时代,ODPS正从传统数据平台进化为“AI操作系统”。面对千亿参数模型与实时决策挑战,ODPS通过流批一体架构、多模态处理、智能资源调度等技术创新,大幅提升效率与智能化水平。从自动驾驶到医疗联合建模,从数字孪生到低代码AI开发,ODPS正重塑企业数据生产力,助力全球客户在算力洪流中抢占先机。
120 0
|
7天前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
69 14
|
2月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
75 0

热门文章

最新文章