电商搜索如何“想用户所想,提高搜索结果质量”?

简介: 本文针对电商搜索中如何“想用户所想,提高搜索结果质量”的问题进行剖析,并通过阿里云开放搜索电商行业解决方案和大家聊一聊如何优化解决~

案例背景

国内某头部母婴垂直类电商平台,致力于提供多元的产品和服务,满足中国年轻家庭知识获取、交流交友、记录成长和消费购物的四个核心需求,营收主要来源于商城部分,我们之前提到,大部分垂直类电商搜索转化占整体业务转化的6成以上,所以该母婴平台想从根本提高营收额,就必须满足宝妈宝爸们育儿商品搜索的需求,帮助他们快速准确的找到想要的东西。

搜索问题反馈:

用户:没有精准定位搜索需求,查询召回文档相关性较差

问题分析

通过电商行业搜索特征来分析
1. 关键词堆砌;
例如:“帮宝适男童大码拉拉裤包邮”
关键词:帮宝适、男童、大码、拉拉裤、包邮;一个query包含好几个搜索关键词,这些关键词的重要性也是分:高、中、低的。

2. 词序对语义的影响不大;

** 例如:“L码男童纸尿裤夏季透气”**

“L码”为尺寸,“男童”为人群,“纸尿裤”为品类,“夏季”时间季节,“透气”为产品特性;L码为query的首要词序,但很明显它却并不是重要的关键词,只有定位搜索关键词,去除不重要的词,才会直接影响用户的搜索体验效果和搜索质量

阿里云开放搜索解决方案:

image.png
1. 电商分词器:分词是影响搜索效果的最基础的模块,阿里云开放搜索按行业属性提供多种场景分词器,通用行业分词器、电商行业分词器、内容行业分词器、自定义分词器等。

电商行业分词器是集成了淘宝搜索同款的分词器,它的训练语料是来自淘宝搜索多年积累的百万级有标注的电商行业数据,所以相比开源IK分词器效果较好,可以高效、高质量的解决目前遇到的分词难题。例如:
• 文档字段内容为“大宝SOD蜜”,则搜索“大宝”、“sod”、“sod蜜”、“SOD蜜”、“蜜”等情况下均可以召回。
• 文档字段内容为“菊花茶”,则搜索“菊花茶”、“菊花”、“茶”、“花茶”等情况下可以召回

2. 拼写纠错:提供的拼写检查功能,对查询词中的错误进行纠正,给出正确的查询词。并根据纠错的可信度高低,决定当前查询是否用纠错后的词进行查询。
例如:用户搜索了“邦宝适拉拉裤”,那么默认纠错并返回“帮宝适拉拉裤”的结果
image.png

3. 词权重: 该功能主要分析了查询中每一个词在文本中的重要程度,并将其量化成权重,权重较低的词可能不会参与召回。这样可以避免当用户输入的查询词中包含一些权重低的词时,仍然按用户输入的查询词限制召回,导致命中结果过少
例如:用户搜索“帮宝适男童拉拉裤大码包邮”,词权重后会去查询:“帮宝适 拉拉裤、拉拉裤 大码、拉拉裤”扩大召回量
image.png

4. 实体识别:在查询分析中,实体识别主要的作用于query处理和类目预测查询中,用来识别文本中有特定意义的实体,电商行业中主要识别品牌、品类、款式、风格等具有电商行业特色的实体类型,可以影响Query改写,提高召回率和准确性,提升类目预测的召回率,丢弃部分对类目影响不大的词;

4.1 影响query 改写,提高召回率和准确性
召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。实体的重要性目前分为3档,分别是高、中、低
Query改写的规则如下:
(1)重要性高的实体,其优先级完全一样,肯定会参与召回;
(2)重要性低的实体,始终不参与召回;
(3)重要性中的实体,其优先级按其在查询分析中配置的顺序依次递减,改写规则:

  1. 当query中有重要性高的实体时,重要性中的实体在第一个query中参与召回,第二个query不参与召回;
  2. 当query中没有重要性高的实体时,重要性中的实体在第一个query中参与召回,在第二个query中,优先级最高的那个实体类型的词会参与召回,其他的都不参与召回。
    (4)当query中没有重要性高和中的实体时,query改写不参照实体识别的结果;

(5)当query只有重要性高或者只有重要性高和低的实体时,改写后只会得到一个query。
image.png

4.2 提升类目预测召回率
查询类目预测时,依据实体对类目预测影响不同,丢弃部分对类目预测影响不大的词
image.png
例如:对于query 艾莎(人名)同款(后缀)夏季(时间季节)蕾丝(款式元素)连衣裙(品类),丢词后的query按照优先级排序分别为:
(1)夏季蕾丝连衣裙
(2)夏季连衣裙
(3)蕾丝连衣裙
(4)连衣裙
系统会按照上述顺序依次查询类目预测的结果。

4.3 创建实体识别干预词典
为了方便用户使用,系统提供默认的实体重要性配置。用户也可以根据实际业务情况,自主的调整配置。这块调整会影响query的改写规则。
例如:业务特殊专有名词,需要进行实体识别干预。
用户搜索“小熊 (Bear)婴儿指甲刀护理套装",其中“小熊”“bear”实体识别结果为:普通词,但实际业务上“小熊(bear)”是一家母婴品牌,这时可以使用干预词典,设置为“品牌”,从而影响召回排序的效果。
image.png

实践后的搜索性能对比:

1. 搜索“荷兰美素佳儿婴幼儿奶粉“分词效果
• Before:“荷兰 美 素 佳 儿 婴幼儿 婴 幼 儿 奶粉 奶 粉”
• After: “荷兰(地点地域) 美素佳儿(品牌) 婴幼儿(人群) 奶粉(品类)”

2. 搜索“夏季新款凉鞋男童”
• Before:3个召回结果,
• After:22个召回结果
**利用查询分析--实体识别功能:定位搜索关键词
实体识别:“夏季”时间季节,“男童”人群;“新款"新品;;“凉鞋”品类;

    Query1:  “凉鞋”“夏季”“男童”;
    Query2:“凉鞋”**----

如果你想与更多开发者们进行交流、了解最前沿的搜索与推荐技术,可以钉钉扫码加入社群~

image.png


【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用~ https://www.aliyun.com/product/opensearch
目录
相关文章
|
自然语言处理 搜索推荐 算法
如何快速实现精准的个性化搜索服务
用户行为数据如何实时的应用在搜索服务中那? 怎样在1天内就可实现【精准的个性化搜索系统】搭建那? 今天小编将通过【阿里云开放搜索】中的三大“个性化搜索算法模型”给大家详细介绍,希望给予您更多解决思路~
16757 0
如何快速实现精准的个性化搜索服务
|
机器学习/深度学习 自然语言处理 算法
ES中的中文分词技术,很牛逼!
ES中的中文分词技术,很牛逼!
732 0
ES中的中文分词技术,很牛逼!
|
弹性计算 网络协议 安全
阿里云服务器开放端口教程(以开启80端口为例)
阿里云服务器开放端口教程(以开启80端口为例)阿里云服务器端口怎么打开?云服务器ECS端口在安全组中开启,轻量应用服务器端口在防火墙中打开,阿里云服务器网以80端口为例,来详细说下阿里云服务器端口开放图文教程,其他的端口如8080、3306、443、1433也是同样的方法进行开启端口:
3711 0
|
Ubuntu
ubuntu20.04 ros-noetic 安装
ubuntu20.04 ros-noetic 安装
927 0
|
JSON 数据格式
springboot+mybatisplus+layui+restful实现dtree树形结构显示,以左右两侧传值显示
springboot+mybatisplus+layui+restful实现dtree树形结构显示,以左右两侧传值显示
502 0
|
4月前
|
存储 人工智能 弹性计算
7×24小时AI助理零基础GET指南:OpenClaw(原Clawdbot)阿里云部署及使用解析
你是否幻想过拥有一个全天候在线的AI助手?它不仅能陪你聊天,还能清理邮箱、规划日程、编写代码,甚至自主安装新功能,帮你处理工作生活中的各类琐事。2026年,这款名为OpenClaw(前身为Clawdbot、Moltbot)的开源工具,在短短两个月内斩获近10万GitHub星标,成为史上增长最快的开源项目之一,掀起了个人AI助手的全新浪潮。
1586 2
|
存储 监控 搜索推荐
淘宝搜索模型如何全面实时化?首次应用于双11
双十一当天,淘宝会产生很多的点击率。点击率(Click Through Rate,CTR)和点击转化率(Conversion Rate,CVR)预估在电子商务中的许多工业应用(例如搜索、推荐和在线广告系统)中发挥着重要作用。其中最主要的挑战是,用户、query、商品的特征分布以及ground truth的CTR/CVR可能受季节性、商家活动、大促等因素影响,随时间发生很大的的变化。受限于在线系统对模型的构建和切换的耗时,模型只能每N小时(N>=2)生效一次。因此模型不仅滞后实时数据N小时,而且由于模型是冻结的,也无法应对CTR/CVR的实时变化。下面我们一睹为快吧。
4450 0
淘宝搜索模型如何全面实时化?首次应用于双11
|
监控 搜索推荐 测试技术
“业务指标”衡量电商搜索引擎的优劣
在电商行业中,无论是2B还是2C,最终的业务目的就是交易成单,众所周知搜索服务旨在让消费者能够更快的定位到自己想要的产品,据统计像淘宝这类综合型电商搜索转化交易占整个交易结果的40%以上,垂直类电商的搜索转化更是占整个交易结果的60%以上,所以搜索在电商中的重要性不言而喻,越是拥有海量sku的电商网站,就越依靠搜索,同时对搜索商品的能力要求也就越高。
6047 0
“业务指标”衡量电商搜索引擎的优劣
|
Python
python自动化系列之python操作pptx文件
python自动化系列之python操作pptx文件
1364 0
python自动化系列之python操作pptx文件
|
搜索推荐 机器学习/深度学习 算法
电商搜索算法技术的演进
站在今天总结过去的算法演进,同时看未来电商搜索推荐算法的发展,期待从机器智能到结合人类智能做到真正地认知智能,实现搜索推荐新的交互新体验。
4665 0