新功能 | 智能开放搜索上线定制分词器-阿里云开发者社区

新功能 | 智能开放搜索上线定制分词器

2022-04-21 1018

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

OpenSearch LLM智能问答版免费试用套餐，存储1GB首月+计算资源100CU

推荐全链路深度定制开发平台，高级版 1个月

简介： 智能开放搜索上线定制召回模型-定制分词器功能，满足各行业、垂类、业务特殊，对搜索有较高分词要求的客户，提升语义理解能力，精准召回用户搜索意图。

智能搜索常见业务痛点

分词是智能搜索链路的核心环节。精准的分词能有效提升搜索结果的召回率、准确率，从而改善终端用户的搜索体验，带来更好的客户粘性与业务转化。

然而，由于业务场景的多样性，不同行业、垂类、业务都有各自的特征，基于开源分词器或自建分词器构建搜索往往会遇到各种各样的问题。

痛点1：开源分词效果差

开源模型、公开数据域大多针对通用中文分词领域，无法覆盖电商、内容等常见行业场景。

开源分词在实际应用经常会出现bad case，导致召回结果数少，搜索结果排序效果不佳。产品、运营同学经常需要进行人工干预与调整，增加人力运维成本的同时也影响了搜索业务转化。

痛点2：自建分词难度大、成本高、周期长

自建分词模型主要包含以下流程：

难点1：分词标注领域知识要求高，交叉歧义判断难。同时数据量也至少需要达到万级别，耗时可能长达数月。

难点2：模型训练门槛高，需要专业的算法从业人员进行调试，且模型效果、迭代效率强依赖与算法工程师的投入和能力。

难点3：模型部署、运维流程复杂，需要工程、算法、运维等多方参与，且深度模型的上线还涉及性能、效率相关的诸多优化。

开放搜索轻量化定制分词解决方案

为解决上述问题，开放搜索提供了轻量化定制分词解决方案：

方案介绍

开放搜索内置了丰富的行业分词模型，能够满足不同行业的搜索分词需求。同时，针对特殊的行业、垂类、业务，提供了基于预训练行业NLP模型的轻量化定制能力。

用户只需在开放搜索控制台中经过简单的配置后，开放搜索将自动根据实例中的业务数据进行参数适配，模型训练。训练完成后，用户可在控制台中查看差异率、典型分词case等模型效果，等到效果符合预期后，即可在开放搜索中使用该定制分词器，并支持分词效果人工干预。

整个定制过程无需进行额外的数据对接、标注、模型调参、部署、运维等工作，在更低附加成本下完成模型定制与搜索效果调优。

更多具体使用方法说明请参考：https://help.aliyun.com/document_detail/423699.html

适用客户

1.搜索为核心业务重要场景，对搜索有更高效果要求的客户

2.行业、垂类、业务特殊，有较多专属名词的客户

3.搜索投入人力有限，算法同学相对较少的客户

效果对比及业务收益

电商场景效果对比

原文	电商通用分词	定制分词器
冰韧神奈川表带	冰韧神奈川表带	冰韧神奈川表带
搭配不踩雷	搭配不踩雷	搭配不踩雷
穿脱困难	穿脱困难	穿脱困难
橘朵唇泥	橘朵唇泥	橘朵唇泥

地址场景效果对比

原文	通用分词	定制分词器
棠阴古建筑群	棠阴古建筑群	棠阴古建筑群
鄞州区广德湖北路	鄞州区广德湖北路	鄞州区广德湖北路
送桥镇七彩路湖西佳园	送桥镇七彩路湖西佳园	送桥镇七彩路湖西佳园

客户案例

客户背景：内容素材网站，无明显行业属性，但存在部分专有名词。客户原本基于开源引擎及其分词器构建搜索业务，但搜索效果不佳，点击率偏低。

客户解决方案：基于开放搜索通用分词器，上传业务数据（标题、内容、作者）训练定制分词器

效果与业务收益：

（1）模型效果差异率约2%

（2）人工测试top20高频搜索词，分词效果均满足需求

（3）相比开源搜索，PV-CTR相对提升约30%；相比开放搜索通用分词，PV-CTR相对提升约10%

小结：

如果您的业务目前正在或准备使用开放搜索的行业版，可以在行业模型的基础上训练定制分词器
如果开放搜索还没有提供与您业务接近的行业版，建议选择在通用版模型的基础上训练定制分词器，这种情况需要数据尽量丰富，分布尽量全面均衡，有助于提升定制分词器的效果
开放搜索后续还会提供更多定制召回模型，例如：定制词权重、同义词、拼写纠错等，敬请期待~

填写问卷获得专家指导>>https://page.aliyun.com/form/act1638084369/index.htm

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术，可以钉钉扫码加入社群

新功能 | 智能开放搜索上线定制分词器

智能搜索常见业务痛点

痛点1：开源分词效果差

痛点2：自建分词难度大、成本高、周期长

开放搜索轻量化定制分词解决方案

方案介绍

适用客户

效果对比及业务收益

电商场景效果对比

地址场景效果对比

客户案例

智能搜索推荐

热门文章

最新文章

相关产品

相关电子书

相关实验场景