新功能 | 智能开放搜索上线定制分词器

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
推荐全链路深度定制开发平台,高级版 1个月
简介: 智能开放搜索上线定制召回模型-定制分词器功能,满足各行业、垂类、业务特殊,对搜索有较高分词要求的客户,提升语义理解能力,精准召回用户搜索意图。

智能搜索常见业务痛点

分词是智能搜索链路的核心环节。精准的分词能有效提升搜索结果的召回率、准确率,从而改善终端用户的搜索体验,带来更好的客户粘性与业务转化。

然而,由于业务场景的多样性,不同行业、垂类、业务都有各自的特征,基于开源分词器或自建分词器构建搜索往往会遇到各种各样的问题。

痛点1:开源分词效果差

开源模型、公开数据域大多针对通用中文分词领域,无法覆盖电商、内容等常见行业场景。

开源分词在实际应用经常会出现bad case,导致召回结果数少,搜索结果排序效果不佳。产品、运营同学经常需要进行人工干预与调整,增加人力运维成本的同时也影响了搜索业务转化。

痛点2:自建分词难度大、成本高、周期长

自建分词模型主要包含以下流程:

难点1:分词标注领域知识要求高,交叉歧义判断难。同时数据量也至少需要达到万级别,耗时可能长达数月。

难点2:模型训练门槛高,需要专业的算法从业人员进行调试,且模型效果、迭代效率强依赖与算法工程师的投入和能力。

难点3:模型部署、运维流程复杂,需要工程、算法、运维等多方参与,且深度模型的上线还涉及性能、效率相关的诸多优化。

开放搜索轻量化定制分词解决方案

为解决上述问题,开放搜索提供了轻量化定制分词解决方案:

方案介绍

开放搜索内置了丰富的行业分词模型,能够满足不同行业的搜索分词需求。同时,针对特殊的行业、垂类、业务,提供了基于预训练行业NLP模型的轻量化定制能力。

用户只需在开放搜索控制台中经过简单的配置后,开放搜索将自动根据实例中的业务数据进行参数适配,模型训练。训练完成后,用户可在控制台中查看差异率、典型分词case等模型效果,等到效果符合预期后,即可在开放搜索中使用该定制分词器,并支持分词效果人工干预。

整个定制过程无需进行额外的数据对接、标注、模型调参、部署、运维等工作,在更低附加成本下完成模型定制与搜索效果调优。

更多具体使用方法说明请参考:https://help.aliyun.com/document_detail/423699.html

适用客户

1.搜索为核心业务重要场景,对搜索有更高效果要求的客户

2.行业、垂类、业务特殊,有较多专属名词的客户

3.搜索投入人力有限,算法同学相对较少的客户

效果对比及业务收益

电商场景效果对比

原文

电商通用分词

定制分词器

冰韧神奈川表带

冰 韧 神奈川 表带

冰韧 神奈川 表带

搭配不踩雷

搭配 不 踩 雷

搭配 不 踩雷

穿脱困难

穿 脱困 难

穿脱 困难

橘朵唇泥

橘朵 唇 泥

橘朵 唇泥

地址场景效果对比

原文

通用分词

定制分词器

棠阴古建筑群

棠 阴古 建筑群

棠阴 古建筑群

鄞州区广德湖北路

鄞州区 广德 湖北路

鄞州区 广德湖 北路

送桥镇七彩路湖西佳园

送桥镇 七彩 路湖 西佳 园

送桥镇 七彩路 湖西佳园

客户案例

客户背景:内容素材网站,无明显行业属性,但存在部分专有名词。客户原本基于开源引擎及其分词器构建搜索业务,但搜索效果不佳,点击率偏低。

客户解决方案:基于开放搜索通用分词器,上传业务数据(标题、内容、作者)训练定制分词器

效果与业务收益:

(1)模型效果差异率约2%

(2)人工测试top20高频搜索词,分词效果均满足需求

(3)相比开源搜索,PV-CTR相对提升约30%;相比开放搜索通用分词,PV-CTR相对提升约10%

小结:

  • 如果您的业务目前正在或准备使用开放搜索的行业版,可以在行业模型的基础上训练定制分词器
  • 如果开放搜索还没有提供与您业务接近的行业版,建议选择在通用版模型的基础上训练定制分词器,这种情况需要数据尽量丰富,分布尽量全面均衡,有助于提升定制分词器的效果
  • 开放搜索后续还会提供更多定制召回模型,例如:定制词权重、同义词、拼写纠错等,敬请期待~


填写问卷获得专家指导>>https://page.aliyun.com/form/act1638084369/index.htm

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

目录
相关文章
|
自然语言处理 搜索推荐 开发者
SmartArXiv——基于OpenSearch LLM智能问答版构建的智能学术论文助手正式发布
本文介绍智能学术论文助手SmartArxiv的架构、应用场景和产品功能。
2149 1
|
自然语言处理 分布式计算 Java
基于OpenSearch向量检索版和智能问答版搭建企业专属对话搜索系统
本文将介绍如何使用OpenSearch向量检索版和智能问答版,搭建灵活自定义的企业专属对话搜索系统。
2008 1
|
8月前
|
存储 人工智能 自然语言处理
OpenSearch LLM智能问答版全新升级
阿里云OpenSearch LLM智能问答版近期全新升级,新增最新版开源大模型、多模态模型、切片策略升级等产品能力。
2099 2
|
8月前
|
SQL 搜索推荐 算法
智能开放搜索 OpenSearch产品优势
智能开放搜索 OpenSearch产品优势
94 2
|
8月前
|
自然语言处理 算法 搜索推荐
智能开放搜索 OpenSearch应用场景
智能开放搜索 OpenSearch应用场景
143 1
|
8月前
|
自然语言处理 搜索推荐 开发者
OpenSearch 智能问答实验室上线,支持免费体验对话式问答搜索
本文介绍OpenSearch 智能问答实验室上线的场景功能体验。
1242 0
|
自然语言处理 搜索推荐 定位技术
OpenSearch助力识林构建智能问答体系
识林基于OpenSearch构建大语言模型的智能问答体系,实现客户问答效率提升10倍以上。
81383 3
|
数据采集 人工智能 搜索推荐
智能开放搜索
智能开放搜索
424 0
|
机器学习/深度学习 数据采集 搜索推荐
技术解读 | 智能开放搜索CTR预估模型
本文介绍开放搜索CTR预估模型在个性化排序中的应用与实践
2403 2
|
运维 自然语言处理 算法
新功能 | 智能开放搜索上线定制词权重模型
智能开放搜索OpenSearch上线定制召回模型-定制词权重功能,助力对召回和相关性排序有较高要求的客户实现最优搜索效果。
1246 0

相关产品

  • 智能开放搜索 OpenSearch