电商搜索如何“想用户所想,提高搜索结果质量”?

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 本文针对电商搜索中如何“想用户所想,提高搜索结果质量”的问题进行剖析,并通过阿里云开放搜索电商行业解决方案和大家聊一聊如何优化解决~

案例背景

国内某头部母婴垂直类电商平台,致力于提供多元的产品和服务,满足中国年轻家庭知识获取、交流交友、记录成长和消费购物的四个核心需求,营收主要来源于商城部分,我们之前提到,大部分垂直类电商搜索转化占整体业务转化的6成以上,所以该母婴平台想从根本提高营收额,就必须满足宝妈宝爸们育儿商品搜索的需求,帮助他们快速准确的找到想要的东西。

搜索问题反馈:

用户:没有精准定位搜索需求,查询召回文档相关性较差

问题分析

通过电商行业搜索特征来分析
1. 关键词堆砌;
例如:“帮宝适男童大码拉拉裤包邮”
关键词:帮宝适、男童、大码、拉拉裤、包邮;一个query包含好几个搜索关键词,这些关键词的重要性也是分:高、中、低的。

2. 词序对语义的影响不大;

** 例如:“L码男童纸尿裤夏季透气”**

“L码”为尺寸,“男童”为人群,“纸尿裤”为品类,“夏季”时间季节,“透气”为产品特性;L码为query的首要词序,但很明显它却并不是重要的关键词,只有定位搜索关键词,去除不重要的词,才会直接影响用户的搜索体验效果和搜索质量

阿里云开放搜索解决方案:

image.png
1. 电商分词器:分词是影响搜索效果的最基础的模块,阿里云开放搜索按行业属性提供多种场景分词器,通用行业分词器、电商行业分词器、内容行业分词器、自定义分词器等。

电商行业分词器是集成了淘宝搜索同款的分词器,它的训练语料是来自淘宝搜索多年积累的百万级有标注的电商行业数据,所以相比开源IK分词器效果较好,可以高效、高质量的解决目前遇到的分词难题。例如:
• 文档字段内容为“大宝SOD蜜”,则搜索“大宝”、“sod”、“sod蜜”、“SOD蜜”、“蜜”等情况下均可以召回。
• 文档字段内容为“菊花茶”,则搜索“菊花茶”、“菊花”、“茶”、“花茶”等情况下可以召回

2. 拼写纠错:提供的拼写检查功能,对查询词中的错误进行纠正,给出正确的查询词。并根据纠错的可信度高低,决定当前查询是否用纠错后的词进行查询。
例如:用户搜索了“邦宝适拉拉裤”,那么默认纠错并返回“帮宝适拉拉裤”的结果
image.png

3. 词权重: 该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少
例如:用户搜索“帮宝适男童拉拉裤大码包邮”,词权重后会去查询:“帮宝适 拉拉裤、拉拉裤 大码、拉拉裤”扩大召回量
image.png

4. 实体识别:在查询分析中,实体识别主要的作用于query处理和类目预测查询中,用来识别文本中有特定意义的实体,电商行业中主要识别品牌、品类、款式、风格等具有电商行业特色的实体类型,可以影响Query改写,提高召回率和准确性,提升类目预测的召回率,丢弃部分对类目影响不大的词;

4.1 影响query 改写,提高召回率和准确性
召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。实体的重要性目前分为3档,分别是高、中、低
Query改写的规则如下:
(1)重要性高的实体,其优先级完全一样,肯定会参与召回;
(2)重要性低的实体,始终不参与召回;
(3)重要性中的实体,其优先级按其在查询分析中配置的顺序依次递减,改写规则:

  1. 当query中有重要性高的实体时,重要性中的实体在第一个query中参与召回,第二个query不参与召回;
  2. 当query中没有重要性高的实体时,重要性中的实体在第一个query中参与召回,在第二个query中,优先级最高的那个实体类型的词会参与召回,其他的都不参与召回。
    (4)当query中没有重要性高和中的实体时,query改写不参照实体识别的结果;

(5)当query只有重要性高或者只有重要性高和低的实体时,改写后只会得到一个query。
image.png

4.2 提升类目预测召回率
查询类目预测时,依据实体对类目预测影响不同,丢弃部分对类目预测影响不大的词
image.png
例如:对于query 艾莎(人名)同款(后缀)夏季(时间季节)蕾丝(款式元素)连衣裙(品类),丢词后的query按照优先级排序分别为:
(1)夏季蕾丝连衣裙
(2)夏季连衣裙
(3)蕾丝连衣裙
(4)连衣裙
系统会按照上述顺序依次查询类目预测的结果。

4.3 创建实体识别干预词典
为了方便用户使用,系统提供默认的实体重要性配置。用户也可以根据实际业务情况,自主的调整配置。这块调整会影响query的改写规则。
例如:业务特殊专有名词,需要进行实体识别干预。
用户搜索“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体识别结果为:普通词,但实际业务上“小熊(bear)”是一家母婴品牌,这时可以使用干预词典,设置为“品牌”,从而影响召回排序的效果。
image.png

实践后的搜索性能对比:

1. 搜索“荷兰美素佳儿婴幼儿奶粉“分词效果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地域) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”

2. 搜索“夏季新款凉鞋男童”
• Before:3个召回结果,
• After:22个召回结果
**利用查询分析--实体识别功能:定位搜索关键词
实体识别:“夏季”时间季节,“男童”人群;“新款"新品;;“凉鞋”品类;

    Query1:  “凉鞋”“夏季”“男童”;
    Query2:“凉鞋”**----

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群~

image.png


【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用~ https://www.aliyun.com/product/opensearch
目录
相关文章
|
分布式计算 API Linux
通义千问API:找出两篇文章的不同
本章我们将介绍如何利用大模型开发一个文档比对小工具,我们将用这个工具来给互联网上两篇内容相近但版本不同的文档找找茬,并且我们提供了一种批处理文档比对的方案
|
6月前
|
人工智能 自然语言处理 运维
让搜索引擎“更懂你”:AI × Elasticsearch MCP Server 开源实战
本文介绍基于Model Context Protocol (MCP)标准的Elasticsearch MCP Server,它为AI助手(如Claude、Cursor等)提供与Elasticsearch数据源交互的能力。文章涵盖MCP概念、Elasticsearch MCP Server的功能特性及实际应用场景,例如数据探索、开发辅助。通过自然语言处理,用户无需掌握复杂查询语法即可操作Elasticsearch,显著降低使用门槛并提升效率。项目开源地址:<https://github.com/awesimon/elasticsearch-mcp>,欢迎体验与反馈。
1516 1
|
12月前
|
机器学习/深度学习 存储 自然语言处理
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(上)
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(上)
171 0
|
12月前
|
存储 Java 数据安全/隐私保护
Java 生成证书:使用 keytool
Java 生成证书:使用 keytool
|
12月前
|
搜索推荐 C语言
深入浅出理解 C 语言中的 qsort 函数
深入浅出理解 C 语言中的 qsort 函数
|
存储 关系型数据库 数据库
关系型数据库设计规范第一范式(1NF)
【5月更文挑战第14天】关系型数据库设计规范第一范式(1NF
443 8
|
机器学习/深度学习 搜索推荐 算法
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF_TDM_Airbnb Embedding_Item2vec等)、召回路径简介、多路召回融合]
|
自然语言处理 搜索推荐 算法
优化搜索排序结果从而“ 提升CTR、CVR业务指标”
搭建搜索功能不难,难的是如何提高搜索质量,帮助用户快速找到心中所想的内容或商品,那么搜索结果的相关性排序则是影响用户体验最关键的一环,本文通过阿里云开放搜索电商行业解决方案和大家聊一聊如何优化排序结果
7006 0
优化搜索排序结果从而“ 提升CTR、CVR业务指标”
|
运维 监控 安全
【网络安全】2022年网络等级保护考试题库及答案
2022年网络等级保护考试题库及答案
4789 0
|
搜索推荐 SEO
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
697 0