新功能 | OpenSearch上线定制同义词模型

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
推荐全链路深度定制开发平台,高级版 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: OpenSearch定制同义词模型可以提升搜索查询词同义扩展能力,扩大召回和查询词同义的文档,有效解决行业、垂类、业务特殊,有较多专属名词的客户优化用户搜索体验。

业务痛点

由于用户搜索习惯的不同,搜索时输入的关键词往往会存在差异,这导致搜索引擎无法召回与搜索词文本不一致但实际上是用户期望的结果。比如,用户搜索“棉袄”时,通用文本检索将无法搜索到“棉服”相关的内容,影响用户的搜索效率与使用体验。解决此类问题最有效的方法之一是使用同义词功能。

痛点一:行业属性强

由于业务场景的多样性,不同行业、垂类之间的同义词可能存在着巨大的差异,通用的开源同义词模型难以覆盖细分业务场景。比如在电商场景下,会因业务特殊性生成专属的品牌词、别名、简称等同义词,在这种情况下,业务同义词的挖掘与维护成为提升搜索召回效果的痛点之一。

痛点二:自建同义词成本高、难度大

为解决上述业务痛点,自建同义词模型是业务常见的方案之一,自建同义词模型主要包含以下流程:

  • 难点1:同义词标注领域知识要求高,对于查询词中不同词在搜索引擎中的重要性判断难。同时数据量也至少需要达到万级别,耗时可能长达数月。
  • 难点2:模型训练门槛高,需要专业的算法从业人员进行调试,且模型效果、迭代效率强依赖与算法工程师的投入和能力。
  • 难点3:模型部署、运维流程复杂,需要工程、算法、运维等多方参与,且深度模型的上线还涉及性能、效率相关的诸多优化。

综上,自建同义词模型对时间、人力、资源的投入均相对较高,且模型效果强依赖于专业算法人员的能力,往往投入了很多成本却无法提升搜索效果。

开放搜索定制同义词解决方案

方案介绍

在进行搜索文本搜索前,开放搜索OpenSearch会对用户输入关键词进行查询语义分析和处理。其中,同义词功能主要是对查询词进行同义扩展,扩大召回和查询词同义的文档。由于业务场景的多样性,不同行业、不同业务都有各自的特殊性,只有具体到应用级别的同义词模型才能保障最优的搜索效果。

OpenSearch提供了丰富的面向特定领域的同义词模型,用户可以基于对应的行业,经过简单的配置训练得到专属的定制同义词模型训练完成后,用户可在控制台中查看差异率、同义词case对比等模型效果,等到效果符合预期后,即可在开放搜索中使用该定制同义词模型,并支持同义词效果人工干预。

整个定制过程无需进行额外的数据对接、标注、模型调参、部署、运维等工作,在更低附加成本下完成模型定制与搜索效果调优。

适用客户

  1. 搜索为核心业务重要场景,对搜索有更高效果要求的客户
  2. 行业、垂类、业务特殊,有较多专属名词的客户
  3. 搜索投入人力有限,算法同学相对较少的客户

使用方法

  1. 在行业算法版-召回配置中创建召回定制-同义词模型并开启训练;
  2. 配置查询分析并引用已训练的召回定制-同义词模型;
  3. 根据业务需求通过干预词典调整召回定制-同义词模型;

更多使用说明请参考:https://help.aliyun.com/document_detail/467943.html

效果对比

电商场景效果对比

原文

电商同义词

定制同义词

交话费

缴话费

充话费

演出服

表演服、演出装、舞台服

表演服、舞台装、表演装

染发剂

染发膏

染发膏、染发液

医疗场景效果对比

原文

通用同义词

定制同义词

血液粘稠度

-

血液黏稠度

不可过度劳累

-

不要过分劳累、不要过度劳累、

不要过于劳累

喉咙很痛

-

喉咙疼痛、喉咙特别痛、喉咙有点痛、喉咙疼


小结

  • 如果您的业务目前正在或准备使用OpenSearch行业算法版,可以在行业模型的基础上训练定制同义词模型;
  • 如果OpenSearch还没有提供与您业务接近的行业,建议选择在行业算法版-通用行业的基础上训练定制同义词模型,这种情况需要数据尽量丰富,分布尽量全面均衡,有助于提升模型效果;
  • 开放搜索目前还支持定制分词器定制词权重模型,后续还会提供更多定制召回模型,敬请期待~

欢迎有高质量搜索效果需求的技术同学参与OpenSearch产品试用~

试用申请问卷https://page.aliyun.com/form/act4137000/index.htm

与更多开发者技术交流可以钉钉加入【推荐与搜索技术交流群】

相关实践学习
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
目录
相关文章
|
6月前
|
数据采集 SQL 自然语言处理
阿里云OpenSearch RAG混合检索Embedding模型荣获C-MTEB榜单第一
阿里云OpenSearch引擎通过Dense和Sparse混合检索技术,在中文Embedding模型C-MTEB榜单上拿到第一名,超越Baichuan和众多开源模型,尤其在Retrieval任务上大幅提升。
1347 4
|
6月前
|
自然语言处理 搜索推荐 开发者
OpenSearch 智能问答实验室上线,支持免费体验对话式问答搜索
本文介绍OpenSearch 智能问答实验室上线的场景功能体验。
1222 0
|
自然语言处理 算法 数据库
OpenSearch向量检索和大模型方案深度解读
深度解读开放搜索在向量检索和大模型方面的升级演进。
81409 7
|
存储 数据采集 人工智能
重磅再推 | 基于OpenSearch向量检索版+大模型,搭建对话式搜索
阿里云OpenSearch再推面向企业开发者的PaaS方案:基于OpenSearch向量检索版,为企业开发者提供性能表现优秀、性价比优异的向量检索服务,并提供与大模型结合脚本工具,用户可在使用能力可靠的向量检索服务的同时,自由选择文档切片方案、向量化模型、大语言模型。
15834 1
重磅再推 | 基于OpenSearch向量检索版+大模型,搭建对话式搜索
|
存储 SQL 机器学习/深度学习
OpenSearch大模型实践之Havenask篇
ChatGPT在通用任务上表现优秀,但无法解决众多垂直业务领域问题,这也不是ChatGPT模型本身的定位,而是需要通过其生态应用去解决。如何在垂直领域针对特定业务构建企业专属问答并且确保生成内容可控,是垂直领域面临的主要问题,也是从事行业搜索和问答的应用努力的方向。OpenSearch作为行业智能搜索产品,其使命就是去解决这一问题,我们正在做积极的探索。同时Havenask作为云产品OpenSearch和集团内引擎HA3的开源版本,也进行了尝试和探索。
OpenSearch大模型实践之Havenask篇
|
搜索推荐 算法 数据处理
OpenSearch上线实时热搜、个性化底纹功能
热搜和底纹处于搜索整个流程的最上游,通过推荐热门、优质、多样化的查询词,对用户搜索意图起到重要的引导作用。OpenSearch上线实时热搜和个性化底纹功能,满足企业多样化搜索引导需求。
1051 1
OpenSearch上线实时热搜、个性化底纹功能
|
机器学习/深度学习 自然语言处理 算法
OpenSearch产品12月1日全新改版上线
智能开放搜索OpenSearch产品改版于2022年12月1日全新上线,满足不同搜索场景业务需求,欢迎大家报名测试体验~
888 0
|
机器学习/深度学习 数据采集 搜索推荐
技术解读 | 智能开放搜索CTR预估模型
本文介绍开放搜索CTR预估模型在个性化排序中的应用与实践
2366 2
|
运维 自然语言处理 算法
新功能 | 智能开放搜索上线定制词权重模型
智能开放搜索OpenSearch上线定制召回模型-定制词权重功能,助力对召回和相关性排序有较高要求的客户实现最优搜索效果。
1225 0
|
自然语言处理 分布式计算 Java
基于OpenSearch向量检索版和智能问答版搭建企业专属对话搜索系统
本文将介绍如何使用OpenSearch向量检索版和智能问答版,搭建灵活自定义的企业专属对话搜索系统。
1991 1

相关产品

  • 智能开放搜索 OpenSearch