开发者学堂课程【搜索与推荐技术实战训练营:行业搜索最佳实践(二)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/919/detail/14484
行业搜索最佳实践(二)
三、行业搜索 case 和案例分析
类型1-分词类问题
1.搜索:'金红卡纸'无法召回义裆-4K 金红卡纸”,
但搜索 emark:'吉莲卡纸'就可以召回文档“4K青莲卡纸”.这是因为什么呢
2.比如 Backward,我搜索 Backward,是能查出来,,,但是我搜索 Back 就查不出来
3.在搜索的时候,user_name=`郑美华,用'郑'搜索的时候可以搜索出来,用'郑美'却搜不出来,是怎么回事啊
问题分析
例子:刘德华的英文名字是 AnayLau
语义粒度∶刘紬华的英文名字是 Ady Lau
检索粒度∵郊燕华的英文名字是 Andy Laus
解决途径
产品干预功能
算法专家,专项定制
类型2-相关性排序
1. query=defaul : "开放搜索”,怎么召回包含"开放"的文档呢,并且包含*开放搜索"的会优先排在前面
2.使用 opensearch 搜索,最匹配的不在第一位这个问题有好的解决方案吗
3.搜索椅子测评,但是出来的结果排序靠前的都是测评这个词,然后,不管我换*测评,排名靠前的都是同样的结果,这种问题怎么解决
解决方式
1.default :开放 AND RANK :搜索词权重&相关性特征
2.相关性优化
3.词权重优化&基于词权重的 BM25等
案例①-某垂直电商
行业:属于非常垂直的电商行业
搜索业务:搜索引导的成交占比全站成交的60%以上,是站内最重要的功能。核心场景包括两个方面,分别是社区和商城,商城业务是其商业收入的主要来源。
站内搜索的无结果接近60%,即每天海量搜索 PV 都是0转化,是非常巨大的流量浪费。
搜索服务本来是基于开源服务自建。
【业务痛点】用户输入和表达习惯多样
站内用户的热搜词往往会是商品的别名,缩写,音译词等等
阿里云开放搜索解决方案
电商分词+电商查询语义理解+自定义词典
【业务痛点】搜索结果排序不合理
单字段排序(比如只按价格),长期以往会导致新发布的商品由于无销量始终排序靠后;也打击了个人卖家发布商品的积极性
阿里云开放搜索解决方案
基础相关性排序+业务排序+人气模型
【业务痛点】难以快速改变现状
搜索优化周期需要在2个月完成,而技术人力只有1个。解法问题需要多个精通搜索和 NLP 的算法专家,还需要至少几十万量级有人工标注的数据物料做训练,现阶段既没人也没数据,市面上也没有现成的开源插件
阿里云开放搜索解决方案
淘宝同款搜索引擎,具备成熟的技术、数据、行业能力
使用阿里云开放搜索 vs 客户自建服务效果对比:
无结果率下降80%+,基本在10%左右
搜索引导的交易转化率对比原自建的开源提升9%
案例②-某内容-IT 行业
【业务痛点】基于开源自建搜索服务效果差
花一年时间投入然而上线后首位结果点击率比某D提供的服务低80%+
阿里云开放搜索解决方案
通用分词+通用查询语义理解+自定义词典
【业务痛点】业务复杂效果优化挑战大
站内用户搜索词专业垂直度也非常高;由于使用用户搜索往往是查找知识,所以口语化描述的长尾词出现频率相对更高这要求搜索引擎对用户查询词的智能意图理解有高要求
阿里云开放搜索解决方案
阿里 NLP 通用 Query 智能分析+人气模型
【业务痛点】效果预期要求高
新的搜索服务需要调优到至少与某 D 的效果持平才能有机会提供服务,其中效果的衡量指标为线上搜索结果的 CTR
阿里云开放搜索解决方案
阿里多年业务实战沉淀的技术算法能力,以及庞大的样本与数据
使用阿里云开放搜索 vs 客户自建服务效果对比
对比客户基于开源自建的服务 CTR 提升超过80%