智能搜索常见业务痛点
分词是智能搜索链路的核心环节。精准的分词能有效提升搜索结果的召回率、准确率,从而改善终端用户的搜索体验,带来更好的客户粘性与业务转化。
然而,由于业务场景的多样性,不同行业、垂类、业务都有各自的特征,基于开源分词器或自建分词器构建搜索往往会遇到各种各样的问题。
痛点1:开源分词效果差
开源模型、公开数据域大多针对通用中文分词领域,无法覆盖电商、内容等常见行业场景。
开源分词在实际应用经常会出现bad case,导致召回结果数少,搜索结果排序效果不佳。产品、运营同学经常需要进行人工干预与调整,增加人力运维成本的同时也影响了搜索业务转化。
痛点2:自建分词难度大、成本高、周期长
自建分词模型主要包含以下流程:
难点1:分词标注领域知识要求高,交叉歧义判断难。同时数据量也至少需要达到万级别,耗时可能长达数月。
难点2:模型训练门槛高,需要专业的算法从业人员进行调试,且模型效果、迭代效率强依赖与算法工程师的投入和能力。
难点3:模型部署、运维流程复杂,需要工程、算法、运维等多方参与,且深度模型的上线还涉及性能、效率相关的诸多优化。
开放搜索轻量化定制分词解决方案
为解决上述问题,开放搜索提供了轻量化定制分词解决方案:
方案介绍
开放搜索内置了丰富的行业分词模型,能够满足不同行业的搜索分词需求。同时,针对特殊的行业、垂类、业务,提供了基于预训练行业NLP模型的轻量化定制能力。
用户只需在开放搜索控制台中经过简单的配置后,开放搜索将自动根据实例中的业务数据进行参数适配,模型训练。训练完成后,用户可在控制台中查看差异率、典型分词case等模型效果,等到效果符合预期后,即可在开放搜索中使用该定制分词器,并支持分词效果人工干预。
整个定制过程无需进行额外的数据对接、标注、模型调参、部署、运维等工作,在更低附加成本下完成模型定制与搜索效果调优。
更多具体使用方法说明请参考:https://help.aliyun.com/document_detail/423699.html
适用客户
1.搜索为核心业务重要场景,对搜索有更高效果要求的客户
2.行业、垂类、业务特殊,有较多专属名词的客户
3.搜索投入人力有限,算法同学相对较少的客户
效果对比及业务收益
电商场景效果对比
原文 |
电商通用分词 |
定制分词器 |
冰韧神奈川表带 |
冰 韧 神奈川 表带 |
冰韧 神奈川 表带 |
搭配不踩雷 |
搭配 不 踩 雷 |
搭配 不 踩雷 |
穿脱困难 |
穿 脱困 难 |
穿脱 困难 |
橘朵唇泥 |
橘朵 唇 泥 |
橘朵 唇泥 |
地址场景效果对比
原文 |
通用分词 |
定制分词器 |
棠阴古建筑群 |
棠 阴古 建筑群 |
棠阴 古建筑群 |
鄞州区广德湖北路 |
鄞州区 广德 湖北路 |
鄞州区 广德湖 北路 |
送桥镇七彩路湖西佳园 |
送桥镇 七彩 路湖 西佳 园 |
送桥镇 七彩路 湖西佳园 |
客户案例
客户背景:内容素材网站,无明显行业属性,但存在部分专有名词。客户原本基于开源引擎及其分词器构建搜索业务,但搜索效果不佳,点击率偏低。
客户解决方案:基于开放搜索通用分词器,上传业务数据(标题、内容、作者)训练定制分词器
效果与业务收益:
(1)模型效果差异率约2%
(2)人工测试top20高频搜索词,分词效果均满足需求
(3)相比开源搜索,PV-CTR相对提升约30%;相比开放搜索通用分词,PV-CTR相对提升约10%
小结:
- 如果您的业务目前正在或准备使用开放搜索的行业版,可以在行业模型的基础上训练定制分词器
- 如果开放搜索还没有提供与您业务接近的行业版,建议选择在通用版模型的基础上训练定制分词器,这种情况需要数据尽量丰富,分布尽量全面均衡,有助于提升定制分词器的效果
- 开放搜索后续还会提供更多定制召回模型,例如:定制词权重、同义词、拼写纠错等,敬请期待~
填写问卷获得专家指导>>https://page.aliyun.com/form/act1638084369/index.htm
如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群