电商行业智能搜索技术原理全解析

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 对于电商平台来说,智能搜索功能是至关重要的。本文剖析电商行业的搜索专属特点和业务需求,并介绍开放搜索提供的【电商行业模板】智能搜索能力,希望带给企业更多提升业务转化的思路和解决方案~

阿里云开放搜索-电商行业智能搜索解决方案:

https://www.aliyun.com/page-source//data-intelligence/activity/opensearch

一、搜索的业务逻辑

“搜索Query→召回→排序→搜索结果”


  当用户在搜索框输入一个Query时,系统通过对其语义的理解,召回相关文档或商品,在通过算法排序,按客户实际的搜索意图进行前后排序,最终解决其搜索需求,实现业务转化。

其中【召回】与【排序】对搜索引导的业务目标最为重要。

二、自然语言处理技术(NLP)在搜索上的应用

1. 概念介绍

   想实现搜索引擎效果的优化,就一定要对自然语言处理技术有一定的了解,因为用户输入一个Query,从学术角度解读,自然语言智能研究实现了人与计算机之间用语言进行有效通信,它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。

  自然语言处理被学者誉为”人工智能皇冠上的明珠“,研究覆盖了感知智能、认知智能、创造智能这样的学科,是实现完整人工智能的必要技术。


2. 阿里云达摩院NLP搜索分析路径

image.png

NLP在搜索中的分析路径

例如:用户搜索"aj1北卡蓝新款球鞋"

文档分析

查询语义理解分析

相关性匹配

[Query]

aj1北卡兰新款球鞋

分词

关键字相关度

(纠错]

aj1北卡蓝新款球鞋

NER

[类目预测)

篮球鞋/运动鞋

类目相关度

向量化

(分词]

aji1,北卡蓝,新款,球鞋

聚类

实体相关度

[命名实体

系列,颜色,营销词,产品词

摘要

[词权重]

0.8,0.8,

0.2,

语义相关度

[同义词改写]

"aj1改写

airiorden

三、电商搜索的特点

1. 关键词堆砌

例如:杨幂同款夏季连衣裙包邮。

2. 词序对语义影响不大

例如:杨幂同款女夏季连衣裙包邮;女夏季连衣裙包邮杨幂同款。

3. 类目预测问题

例如:当用户查询“苹果”时,可能查询的是水果,也可能是手机品牌。

4.查询召回文档相关性差

核心词识别不准确,分词不准确

5. 搜索引导的业务转化比重较大

据统计,综合类电商搜索引导转化占比40%以上,垂直类电商搜索引导转化占比60%以上。

6. 稳定性要求较高,支持弹性扩容

活动、大促系统QPS可能是平时的百倍千倍,需要平滑的扩缩容,保障系统的稳定。


四、电商搜索优化核心功能

1. 分词(划重点!)

1.1分词效果的优化直接影响召回数量,减少无结果率,提高搜索召回质量

例如:

“火锅九块九包邮”

  • 效果差的分词:“火、锅、九、块、九、包、邮”;“火锅、九、块、九、包邮”
  • 开放搜索的分词:“火锅、九块九、包邮”

“925银耳饰“

  • 效果差的分词:“925、银耳、银、耳饰”
  • 开放搜索的分词:“925、银、耳饰”

1.2不同的分词方式直接影响着参与召回的关键词,从而影响召回的准确性

  目前很多开源自建系统难以实现很好的分词效果,主要原因是训练语料的数据量有限,不足以形成可以不断打磨深耕的行业数据。尤其电商行业商品种类丰富,中文字、词表达的意义多样,多音字、同义词又众多的情况下,靠自身算法工程师和开发团队很难实现快速的解决优化,这是一个不断积累训练的漫长过程。


2. 命名实体识别

2.1电商搜索-实体识别含义

  对电商Query和标题进行实体词打标识别,其中包含品牌、品类、品类修饰、型号、款式等类别;

2.2开放搜索实体识别优势

  • 基于淘宝全量数据和知识库深入优化电商行业实体识别能力,解决品牌更新快歧义大,品类存在修饰关系,品牌品类搭配关系等问题;

2.3开放搜索实体识别作用

2.3.1作用于query改写:

   开放搜索查询分析可以改写两个query,第一个query更精准,第二个query减少了参与召回的term,旨在当更精确的召回结果数不足时,用第二个query进行扩大召回。query改写主要根据实体的重要性召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序。

实现方式

   实体重要性目前分为高、中、低三档。其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。


2.3.2与类目预测一起使用

  query中不同的实体对类目的影响是不一样的,因此,当原query没有类目预测的结果时,会根据一定的规则,去掉和类目意图无关或者相关度低的词后,进行类目预测,这对长尾query的类目预测会有很大的帮助.

示例:

杨幂(人名)同款(后缀)春季(时间季节)修身(款式元素)连衣裙(品类)”丢词后的query按照优先级排序分别为:

春季修身连衣裙

春季连衣裙
修身连衣裙
连衣裙

系统会按照上述顺序依次查询类目预测的结果


3. 类目预测

3.1举例说明

  • 用户搜索“苹果”可能是想要水果的苹果,也可能是苹果手机;
  • 用户搜索“华为”,召回结果按销量排序,可能销量最高的“华为手表”、“华为配件”排在前面,实际的搜索意图”华为手机“却排在后面。

 3.2开放搜索类目预测能力  

    类目预测是开放搜索里基于物品/内容的类目信息改善搜索效果的算法功能根据用户的查询词来预测用户想要查询哪个类目的结果,结合排序表达式,可以使得更符合搜索意图的结果排序更靠前。

基本原理把历史上搜过的query收集起来,结合query查询之后的点击行为数据,与类目下的物品信息联系起来,使用这些数据来训练模型,由模型来刻画query与类目之间的数据规律

   不同用户搜索意图不同,有些行为意图搜索“配件”,有些意图是搜索“手机”,那根据用户的行为数据就可以通过类目进行判断,从而在排序效果上实现个性化展示;

4. 排序算法

4.1电商排序常见问题

  • 查询结果排序不理想:导致点击率较低,跳出率较高,直接影响业务转化;
  • 数据缺乏时效性:难以平衡优质商品和新发布商品之间的权衡关系;
  • 商家刷排名:部分商家找到排序漏洞,通过关键词堆砌,获得靠前位置,用户体验不好;
  • 人力资源紧张:需要专业算法工程师2-3名,很难找到合适的人才。

4.2开放搜索电商排序能力

   在应用结构模板和索引结构模板基础上,提供电商常用基础排序、业务排序表达式,无需额外配置即可满足大部分电商行业排序效果需求,用户还可以通过cava脚本定制排序。

5. 人工干预bad case

5.1常见的bad case

  • “iPhone11”刚上市时,用户搜索“苹果/iphone”,最新款产品肯定要排在前面,在没有常规排序算法的时候,就需要类目预测人工干预;
  • “喷泡”是一款篮球鞋的别称,并非主流叫法,全称是“Air Jordan AirFoamposite系列”,这时就需要通过平时运营积累的专业词汇可视化同步到开放搜索做查询语义理解功能的补丁,通过灵活干预得以解决;
  • 跨境电商有时Query涉及“日文、韩文、泰文”等外语,当我们的分词词典不能很好的分词优化时,也可以通过分词干预功能解决;
  • 用户搜索Query“香奈儿气垫”,默认的实体识别,将“香奈儿”归类为“普通词”;“气垫”归类为“材质”,需要人工干预实体识别,把“香奈儿”干预为品牌。

5.2开放搜索人工干预功能

  • 内置干预词典,可在其基础上添加自定义干预词典;
  • 支持查询分析干预词典(停用词、拼写纠错、同义词、实体识别、词权重、类目预测);


6. 搜索引导功能

6.1搜索引导功能业务价值

6.1.1热搜底纹

  • 热门query是用户兴趣的风向标,通过分析热门query把握用户的兴趣走向,对制定运营策略提供决策依据;
  • 给用户推荐一些优质query,提升业务目标
  • 用户推荐热门query,既提升用户体验,又给部分次热门query增加曝光机会
  • 通过分析用户的行为,结合用户的兴趣来推荐query,想用户所想提高转化机会;

image.png

6.1.2下拉提示

  • 提高输入效率,帮助用户尽快找到想要的内容,同时减少用户的查询次数,减小服务端的压力
  • 推荐更优质query;

image.png  

6.2开放搜索搜索引导优势

  内置热搜、底纹、下拉提示多样搜索引导算法模型,无需开发系统每天自动训练模型,对用户搜索意图起到重要的引导作用,大大降低后续查询意图理解、相关性、排序、运营干预等环节的调优难度,对提升整体业务目标可以起到非常好的铺垫作用。

 


五、开放搜索电商行业模板

1.搜索架构

  开放搜索(OpenSearch)首创电商行业搜索模板能力,帮助企业快速构建更高水准的搜索服务,带动业务指数级增长。

image.png

2.一键配置

内置电商行业搜索能力,配置简单新手无门槛

image.png

配置应用

索引结构

应用结构

数据源

功能选择

电商

已选行业:

通用

选择垂关:

模板功能:

查询分析类

电商纠错包

适配常见别名,俗称,中英对照名等电商行业常见同义词

模板功能默认是全选状态,请用户根据业务需要自定义选择

电商词权重

分析查询词分词结果的权重占比,优先匹配用户核心樱案诉求

电商停用词包

识别并过滤查询词中的符号,常见语气词等无意义词

电离同义词包

适配常见别名,俗称,中英对照名等电商行业常见同义词

电商分词包

使用集成润宝多年经验的电商分司包对ouen进行分司处理,适已品院,配色,型号,索列等电商常用词汇

电商实体识别

识别查询词中具有特定意义的品牌,系列等电商行业语义实体

排序萧略关

文本相关性

计算Query与换紫结果的文本相关度,将文本更相关的结果排在前面

周边服务类

下拉提示

根据电商行业常用搜索字段,在输入Query过程中为用户提供像选Query

3.电商行业模板优势

  • 行业最佳实践,减少试错成本

将搭建电商行业搜索的最佳实践产品化落地,用户不必各方向探索,只需按模板接入即可拥有更优服务;

  • 内置更高质量算法模型,节省训练成本

用户从0开始优化搜索,免去大量的数据标注与模型训练工作,直接内置阿里集团淘系搜索算法能力,节省数十人/月的算法工作;

  • 支持个性化搜索与服务能力

通过引擎侧的多路召回能力,实现搜索结果、下拉提示、底纹词等重要服务千人千面,提升搜索转化;

  • 架构开放,支持开发者自定义模型实时回流

支持用户自行训练的NLP模型导入进入开放搜索,灵活满足业务开发者需求;

  • 召回引擎性能充分领先

阿里巴巴自研Ha3引擎,处理海量数据、高并发、海量用户请求,性能数倍优于开源方案;

  • 高时效的行业迭代能力

根据电商行变化,不断迭代更新原有能力,提供更高时效性的服务保障;


4.电商行业增强版技术核心指标优化

4.1开源搜索与电商行业增强版效果对比

电商行业模板

查询分析

开源/自建搜索

query

[橘朵]单色]眼影]

分词

橘朵单色眼影

[橘][朵][单][色][眼影]

汉本萃纽崔莱

汉本萃:品牌

实体识别

纽崔莱:品牌

运动鞋女跑步鞋(跑鞋慢跑鞋健步鞋)

运动鞋女跑步鞋(跑鞋)

运动鞋女跑步鞋

同义词

孕妇装dama

孕妇装大码

拼写纠错

孕妇装dama

电商排序能力

保证类目/品牌相关性,商品标题/系列相关性,综合文本相关性,销量,促销,新品加分等

算法模型

类目预测,人气模型,热搜,底纹,下拉提示

4.2通用版与电商行业增强版能力对比


4.3离线数据处理

 单个集群实时数据同步Tps百万级


获得专家指导:

https://survey.aliyun.com/apps/zhiliao/uzhnOt_g9

电商行业模板配置流程:

https://help.aliyun.com/document_detail/208651.html


如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流

image.png

目录
相关文章
|
9月前
|
机器学习/深度学习 人工智能 算法
模型无关的局部解释(LIME)技术原理解析及多领域应用实践
在当前数据驱动的商业环境中,人工智能(AI)和机器学习(ML)已成为各行业决策的关键工具,但随之而来的是“黑盒”问题:模型内部机制难以理解,引发信任缺失、监管合规难题及伦理考量。LIME(局部可解释模型无关解释)应运而生,通过解析复杂模型的个别预测,提供清晰、可解释的结果。LIME由华盛顿大学的研究者于2016年提出,旨在解决AI模型的透明度问题。它具有模型无关性、直观解释和局部保真度等优点,在金融、医疗等领域广泛应用。LIME不仅帮助企业提升决策透明度,还促进了模型优化和监管合规,是实现可解释AI的重要工具。
381 9
|
机器学习/深度学习 前端开发 Windows
【夯实技术基本功】「底层技术原理体系」全方位带你认识和透彻领悟正则表达式(Regular Expression)的开发手册(正则符号深入解析 )
【夯实技术基本功】「底层技术原理体系」全方位带你认识和透彻领悟正则表达式(Regular Expression)的开发手册(正则符号深入解析 )
152 0
|
5月前
|
数据采集 监控 搜索推荐
深度解析淘宝商品详情API接口:解锁电商数据新维度,驱动业务增长
淘宝商品详情API接口,是淘宝开放平台为第三方开发者提供的一套用于获取淘宝、天猫等电商平台商品详细信息的应用程序接口。该接口涵盖了商品的基本信息(如标题、价格、图片)、属性参数、库存状况、销量评价、物流信息等,是电商企业实现商品管理、市场分析、营销策略制定等功能的得力助手。
|
6月前
|
供应链 搜索推荐 API
深度解析1688 API对电商的影响与实战应用
在全球电子商务迅猛发展的背景下,1688作为知名的B2B电商平台,为中小企业提供商品批发、分销、供应链管理等一站式服务,并通过开放的API接口,为开发者和电商企业提供数据资源和功能支持。本文将深入解析1688 API的功能(如商品搜索、详情、订单管理等)、应用场景(如商品展示、搜索优化、交易管理和用户行为分析)、收益分析(如流量增长、销售提升、库存优化和成本降低)及实际案例,帮助电商从业者提升运营效率和商业收益。
381 20
|
6月前
|
JSON 缓存 API
解析电商商品详情API接口系列,json数据示例参考
电商商品详情API接口是电商平台的重要组成部分,提供了商品的详细信息,支持用户进行商品浏览和购买决策。通过合理的API设计和优化,可以提升系统性能和用户体验。希望本文的解析和示例能够为开发者提供参考,帮助构建高效、可靠的电商系统。
175 12
|
6月前
|
搜索推荐 测试技术 API
探秘电商API:从测试到应用的深度解析与实战指南
电商API是电子商务背后的隐形引擎,支撑着从商品搜索、购物车更新到支付处理等各个环节的顺畅运行。它通过定义良好的接口,实现不同系统间的数据交互与功能集成,确保订单、库存和物流等信息的实时同步。RESTful、GraphQL和WebSocket等类型的API各自适用于不同的应用场景,满足多样化的需求。在测试方面,使用Postman、SoapUI和jMeter等工具进行全面的功能、性能和安全测试,确保API的稳定性和可靠性。未来,随着人工智能、大数据和物联网技术的发展,电商API将进一步智能化和标准化,为用户提供更个性化的购物体验,并推动电商行业的持续创新与进步。
200 4
|
6月前
|
监控 数据可视化 数据挖掘
直播电商复盘全解析:如何通过工具提升团队效率
直播电商作为新兴商业模式,正改变传统零售格局。其成功不仅依赖主播表现和产品吸引力,更需团队高效协作与分工优化。复盘是提升执行力的关键环节,通过总结经验、发现问题、优化流程,结合在线工具如板栗看板,可提升复盘效率。明确团队角色、建立沟通机制、制定优化方案,确保数据驱动决策,从而在竞争中保持领先。
|
11月前
|
机器学习/深度学习 供应链 大数据
【2023Mathorcup大数据】B题 电商零售商家需求预测及库存优化问题 python代码解析
本文提供了2023年MathorCup大数据竞赛B题的电商零售商家需求预测及库存优化问题的Python代码解析,涉及数据预处理、特征工程、时间序列预测、聚类分析以及模型预测性能评价等步骤。
434 0
|
9月前
|
缓存 NoSQL Java
京东电商下单黄金链路:防止订单重复提交与支付的深度解析
【10月更文挑战第21天】在电商领域,尤其是在像京东这样的大型电商平台中,防止订单重复提交与支付是一项至关重要的任务。
331 44
|
8月前
|
缓存 NoSQL Java
千万级电商线上无阻塞双buffer缓冲优化ID生成机制深度解析
【11月更文挑战第30天】在千万级电商系统中,ID生成机制是核心基础设施之一。一个高效、可靠的ID生成系统对于保障系统的稳定性和性能至关重要。本文将深入探讨一种在千万级电商线上广泛应用的ID生成机制——无阻塞双buffer缓冲优化方案。本文从概述、功能点、背景、业务点、底层原理等多个维度进行解析,并通过Java语言实现多个示例,指出各自实践的优缺点。希望给需要的同学提供一些参考。
132 8

推荐镜像

更多
  • DNS