开发者社区> 工程师U> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

新功能 | 智能开放搜索上线定制分词器

简介: 智能开放搜索上线定制召回模型-定制分词器功能,满足各行业、垂类、业务特殊,对搜索有较高分词要求的客户,提升语义理解能力,精准召回用户搜索意图。
+关注继续查看

智能搜索常见业务痛点

分词是智能搜索链路的核心环节。精准的分词能有效提升搜索结果的召回率、准确率,从而改善终端用户的搜索体验,带来更好的客户粘性与业务转化。

然而,由于业务场景的多样性,不同行业、垂类、业务都有各自的特征,基于开源分词器或自建分词器构建搜索往往会遇到各种各样的问题。

痛点1:开源分词效果差

开源模型、公开数据域大多针对通用中文分词领域,无法覆盖电商、内容等常见行业场景。

开源分词在实际应用经常会出现bad case,导致召回结果数少,搜索结果排序效果不佳。产品、运营同学经常需要进行人工干预与调整,增加人力运维成本的同时也影响了搜索业务转化。

痛点2:自建分词难度大、成本高、周期长

自建分词模型主要包含以下流程:

image

难点1:分词标注领域知识要求高,交叉歧义判断难。同时数据量也至少需要达到万级别,耗时可能长达数月。

难点2:模型训练门槛高,需要专业的算法从业人员进行调试,且模型效果、迭代效率强依赖与算法工程师的投入和能力。

难点3:模型部署、运维流程复杂,需要工程、算法、运维等多方参与,且深度模型的上线还涉及性能、效率相关的诸多优化。

开放搜索轻量化定制分词解决方案

为解决上述问题,开放搜索提供了轻量化定制分词解决方案:

方案介绍

开放搜索内置了丰富的行业分词模型,能够满足不同行业的搜索分词需求。同时,针对特殊的行业、垂类、业务,提供了基于预训练行业NLP模型的轻量化定制能力。

用户只需在开放搜索控制台中经过简单的配置后,开放搜索将自动根据实例中的业务数据进行参数适配,模型训练。训练完成后,用户可在控制台中查看差异率、典型分词case等模型效果,等到效果符合预期后,即可在开放搜索中使用该定制分词器,并支持分词效果人工干预。

整个定制过程无需进行额外的数据对接、标注、模型调参、部署、运维等工作,在更低附加成本下完成模型定制与搜索效果调优。

更多具体使用方法说明请参考:https://help.aliyun.com/document_detail/423699.html

适用客户

1.搜索为核心业务重要场景,对搜索有更高效果要求的客户

2.行业、垂类、业务特殊,有较多专属名词的客户

3.搜索投入人力有限,算法同学相对较少的客户

效果对比及业务收益

电商场景效果对比

原文

电商通用分词

定制分词器

冰韧神奈川表带

冰 韧 神奈川 表带

冰韧 神奈川 表带

搭配不踩雷

搭配 不 踩 雷

搭配 不 踩雷

穿脱困难

穿 脱困 难

穿脱 困难

橘朵唇泥

橘朵 唇 泥

橘朵 唇泥

地址场景效果对比

原文

通用分词

定制分词器

棠阴古建筑群

棠 阴古 建筑群

棠阴 古建筑群

鄞州区广德湖北路

鄞州区 广德 湖北路

鄞州区 广德湖 北路

送桥镇七彩路湖西佳园

送桥镇 七彩 路湖 西佳 园

送桥镇 七彩路 湖西佳园

客户案例

客户背景:内容素材网站,无明显行业属性,但存在部分专有名词。客户原本基于开源引擎及其分词器构建搜索业务,但搜索效果不佳,点击率偏低。

客户解决方案:基于开放搜索通用分词器,上传业务数据(标题、内容、作者)训练定制分词器

效果与业务收益:

(1)模型效果差异率约2%

(2)人工测试top20高频搜索词,分词效果均满足需求

(3)相比开源搜索,PV-CTR相对提升约30%;相比开放搜索通用分词,PV-CTR相对提升约10%

小结:

  • 如果您的业务目前正在或准备使用开放搜索的行业版,可以在行业模型的基础上训练定制分词器
  • 如果开放搜索还没有提供与您业务接近的行业版,建议选择在通用版模型的基础上训练定制分词器,这种情况需要数据尽量丰富,分布尽量全面均衡,有助于提升定制分词器的效果
  • 开放搜索后续还会提供更多定制召回模型,例如:定制词权重、同义词、拼写纠错等,敬请期待~


填写问卷获得专家指导>>https://page.aliyun.com/form/act1638084369/index.htm

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群

image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
FPGA设计电梯控制器模块
本文介绍了FPGA设计电梯控制器模块的具体方法
8 0
”见微”工业视觉智能孵化器
本篇内容分享了”见微”工业视觉智能孵化器。
356 0
Ali-Perseus(擎天):统一深度学习分布式通信框架 [弹性人工智能]
【作者】  驭策(龚志刚) 笋江(林立翔)蜚廉(王志明) 昀龙(游亮) 近些年来,深度学习在图像识别,自然语言处理等领域快速发展。各种网络模型,需要越来越多的计算力来进行训练。以典型的中等规模的图像分类网络Resnet50为例,基准的训练精度为Top-1 76%, Top-5 为 93%,为达到此.
5228 0
分布式消息通信及流行MQ框架
分布式系统消息通信技术简介 分布式系统消息通信技术主要包括:RPC(Remote Procedure Call Protocol) 一般是C/S方式,同步的,跨语言跨平台,面向过程CORBA(Common Object Request Broker Architecture) 从概念上扩展了RPC,面向对象的,企业级的 面向对象中间件还有分布式组件对象模型DCOMRMI(Remote Method Invocation) 面向对象方式的 Java RPCWebService 基于Web,C/S或B/S,跨系统跨平台跨网络。
2516 0
分布式--Lucene 全文检索
1. Lucene 官网 1). 概述 Lucene是一款高性能的、可扩展的信息检索(IR)工具库。信息检索是指文档搜索、文档内信息搜索或者文档相关的元数据搜索等操作。
968 0
必须要推荐的浏览器插件---作者:marsggbo
      首先需要说清楚,绝对没有打广告。反反复复用了好多浏览器,换来换去,最后还是留下了chrome浏览器和百度浏览器以及Egde浏览器(不想留也没办法)。下面就说说实用的插件吧。     百度浏览器:         1.免费的爱奇艺会员插件。
887 0
Android调用系统自带功能( 照相,浏览照片,打开浏览器,拨打电话)
MainActivity如下: package cn.com.bravesoft.testintent; import android.net.Uri; import android.
656 0
+关注
59
文章
3
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载