电商搜索如何“想用户所想,提高搜索结果质量”?

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
推荐全链路深度定制开发平台,高级版 1个月
简介: 本文针对电商搜索中如何“想用户所想,提高搜索结果质量”的问题进行剖析,并通过阿里云开放搜索电商行业解决方案和大家聊一聊如何优化解决~

案例背景

国内某头部母婴垂直类电商平台,致力于提供多元的产品和服务,满足中国年轻家庭知识获取、交流交友、记录成长和消费购物的四个核心需求,营收主要来源于商城部分,我们之前提到,大部分垂直类电商搜索转化占整体业务转化的6成以上,所以该母婴平台想从根本提高营收额,就必须满足宝妈宝爸们育儿商品搜索的需求,帮助他们快速准确的找到想要的东西。

搜索问题反馈:

用户:没有精准定位搜索需求,查询召回文档相关性较差

问题分析

通过电商行业搜索特征来分析
1. 关键词堆砌;
例如:“帮宝适男童大码拉拉裤包邮”
关键词:帮宝适、男童、大码、拉拉裤、包邮;一个query包含好几个搜索关键词,这些关键词的重要性也是分:高、中、低的。

2. 词序对语义的影响不大;

** 例如:“L码男童纸尿裤夏季透气”**

“L码”为尺寸,“男童”为人群,“纸尿裤”为品类,“夏季”时间季节,“透气”为产品特性;L码为query的首要词序,但很明显它却并不是重要的关键词,只有定位搜索关键词,去除不重要的词,才会直接影响用户的搜索体验效果和搜索质量

阿里云开放搜索解决方案:

image.png
1. 电商分词器:分词是影响搜索效果的最基础的模块,阿里云开放搜索按行业属性提供多种场景分词器,通用行业分词器、电商行业分词器、内容行业分词器、自定义分词器等。

电商行业分词器是集成了淘宝搜索同款的分词器,它的训练语料是来自淘宝搜索多年积累的百万级有标注的电商行业数据,所以相比开源IK分词器效果较好,可以高效、高质量的解决目前遇到的分词难题。例如:
• 文档字段内容为“大宝SOD蜜”,则搜索“大宝”、“sod”、“sod蜜”、“SOD蜜”、“蜜”等情况下均可以召回。
• 文档字段内容为“菊花茶”,则搜索“菊花茶”、“菊花”、“茶”、“花茶”等情况下可以召回

2. 拼写纠错:提供的拼写检查功能,对查询词中的错误进行纠正,给出正确的查询词。并根据纠错的可信度高低,决定当前查询是否用纠错后的词进行查询。
例如:用户搜索了“邦宝适拉拉裤”,那么默认纠错并返回“帮宝适拉拉裤”的结果
image.png

3. 词权重: 该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少
例如:用户搜索“帮宝适男童拉拉裤大码包邮”,词权重后会去查询:“帮宝适 拉拉裤、拉拉裤 大码、拉拉裤”扩大召回量
image.png

4. 实体识别:在查询分析中,实体识别主要的作用于query处理和类目预测查询中,用来识别文本中有特定意义的实体,电商行业中主要识别品牌、品类、款式、风格等具有电商行业特色的实体类型,可以影响Query改写,提高召回率和准确性,提升类目预测的召回率,丢弃部分对类目影响不大的词;

4.1 影响query 改写,提高召回率和准确性
召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。实体的重要性目前分为3档,分别是高、中、低
Query改写的规则如下:
(1)重要性高的实体,其优先级完全一样,肯定会参与召回;
(2)重要性低的实体,始终不参与召回;
(3)重要性中的实体,其优先级按其在查询分析中配置的顺序依次递减,改写规则:

  1. 当query中有重要性高的实体时,重要性中的实体在第一个query中参与召回,第二个query不参与召回;
  2. 当query中没有重要性高的实体时,重要性中的实体在第一个query中参与召回,在第二个query中,优先级最高的那个实体类型的词会参与召回,其他的都不参与召回。
    (4)当query中没有重要性高和中的实体时,query改写不参照实体识别的结果;

(5)当query只有重要性高或者只有重要性高和低的实体时,改写后只会得到一个query。
image.png

4.2 提升类目预测召回率
查询类目预测时,依据实体对类目预测影响不同,丢弃部分对类目预测影响不大的词
image.png
例如:对于query 艾莎(人名)同款(后缀)夏季(时间季节)蕾丝(款式元素)连衣裙(品类),丢词后的query按照优先级排序分别为:
(1)夏季蕾丝连衣裙
(2)夏季连衣裙
(3)蕾丝连衣裙
(4)连衣裙
系统会按照上述顺序依次查询类目预测的结果。

4.3 创建实体识别干预词典
为了方便用户使用,系统提供默认的实体重要性配置。用户也可以根据实际业务情况,自主的调整配置。这块调整会影响query的改写规则。
例如:业务特殊专有名词,需要进行实体识别干预。
用户搜索“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体识别结果为:普通词,但实际业务上“小熊(bear)”是一家母婴品牌,这时可以使用干预词典,设置为“品牌”,从而影响召回排序的效果。
image.png

实践后的搜索性能对比:

1. 搜索“荷兰美素佳儿婴幼儿奶粉“分词效果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地域) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”

2. 搜索“夏季新款凉鞋男童”
• Before:3个召回结果,
• After:22个召回结果
**利用查询分析--实体识别功能:定位搜索关键词
实体识别:“夏季”时间季节,“男童”人群;“新款"新品;;“凉鞋”品类;

    Query1:  “凉鞋”“夏季”“男童”;
    Query2:“凉鞋”**----

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群~

image.png


【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用~ https://www.aliyun.com/product/opensearch
目录
相关文章
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
智能搜索
智能搜索
169 3
|
搜索推荐
在线网络搜索
在线网络搜索是指通过互联网连接到远程服务器,使用搜索引擎对网络上的信息进行检索和查找。这种搜索方式是我们日常生活中最常用的搜索方式。在线网络搜索可以帮助用户在短时间内找到大量相关的信息,提高信息获取的效率。以下是在线网络搜索的使用方法、适用场景和示例:
243 8
|
小程序 数据库
小程序搜索功能,云开发搜索,小程序云开发模糊搜索,同时搜索多个字段
小程序搜索功能,云开发搜索,小程序云开发模糊搜索,同时搜索多个字段
274 0
|
开发工具 git
移动端项目搜索智能提示总结
移动端项目搜索智能提示总结
移动端项目搜索智能提示总结
|
存储 自然语言处理 搜索推荐
【转】关于搜索挖掘所想
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
129 0
|
Kubernetes 搜索推荐 Java
电子商务搜索基准
电子商务搜索基准是第一个具有个性化推荐的电子商务搜索系统的端到端应用基准。这项工作与詹建峰教授合作(http://www.benchcouncil.org/zjf.html)'的团队,他也是国际开放基准委员会(BenchCouncil,http://www.benchcouncil.org/)的主席。
电子商务搜索基准
|
前端开发 JavaScript 搜索推荐
如何正确的使用百度精准搜索
如何正确的使用百度精准搜索
532 0
|
数据采集 机器学习/深度学习 编解码
神马搜索如何提升搜索的时效性?
什么是搜索的时效性?有哪些特征?如何优化?本文分享神马搜索在搜索排序时效性问题上的实践和探索,从基础特征优化开始,通过标注数据进行排序和召回模型优化,以及时效性排序的召回体系和收录体系。较长,同学们可收藏后再看。
2991 0
神马搜索如何提升搜索的时效性?
|
搜索推荐 UED
影响搜索排名的用户行为
可以影响排名的用户行为如下。 1.网站流量和Alexa排名 这两个因素是最直接、误差最大的因素,其中Alexa排名因为其样本分布不均匀、容易作弊等特点,与网站真实流量往往有很大的误差,不过总体流量也是在一定程度上说明网站的受欢迎程度,因此这一类用户行为的总和也是在影响着排名的。
162 0
|
机器学习/深度学习 分布式计算 DataWorks
批批网在B2B电商领域的搜索业务探索之路
本次分享包含4个部分,第一个是批批网的介绍,第二个是曲折的搜索之路,第三搜索之路柳暗花明,也就是我们使用了OpenSearch之后,我们得到了哪些好处。第四,搜索之路未来可期。
3395 0
批批网在B2B电商领域的搜索业务探索之路