行业搜索最佳实践(一)|学习笔记

简介: 快速学习行业搜索最佳实践(一)

开发者学堂课程【搜索与推荐技术实战训练营行业搜索最佳实践(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/919/detail/14484


行业搜索最佳实践(一)


内容介绍

一、阿里搜索 AI-OS 和达摩院 NLP 概述

二、开放搜索产品和智能化能力介绍

三、行业搜索 case 和案例分析

 

一、阿里搜索 AI-OS 和达摩院 NLP 概述

阿里集团搜索中台演进

1667032023815.jpg

大数据深度学习在线服务体系(AI-OS)

AI-0S 1.0

 1667032042159.jpg

搜索中台-引擎技术进展(支持 SQL)

需求:

搜索匹配了搜索词的门店名,按照配送运力排序每个门店展示匹配了关键词的商品

痛点:

‘之前是自建搜索,商品表是主表,门店表是附表,

配送运力属于门店表上的属性,更新附表后,离线

多表关联触发的 TPS 很大,时效性延迟

解决方案:

多表:门店表,商品表

索引: GEO 空间索引

关联策略∶在线 sQL join

1667032104935.jpg达摩院自然语言智能介绍

定义:自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。

自然语言处理研究是实现完整人工智能的必要技术

image.png

趋势:

1.深度语言模型突妓式发展,引领重要自然语言技术取得进展

2.公有云 NLp 技术服务从通用功能走向定制化服务

3.自然语言技术逐步与行业/场景紧密结合,产生更大价值

达摩院自然语言智能大图

 1667032215390.jpg


二、开放搜索产品和智能化能力介绍

OpenSearch -开箱即用的搜索服务

应用场景:

 电商/内容等对搜索效果有较高要求的场景

数据加速和分析场景

服务能力:

搜索效果一步到位:内置强大的阿里巴巴 NLP 智能分词、实体识别等强大功能,一键复制淘宝搜索的效果

配置灵活,支持数据处理、索引结构、查询分析以及结果非序的可定制

0运维,免部署

 淘宝主搜算法功能原生集成

OpenSearch 产品形式

 1667032261783.jpg

OpenSearch 算法产品化

一键式:

优化产品功能联动,提供模板化、场景化、端到端的行业解决方案

开放式:

透出技术、算法和运维能力,支持脚本和二次开发,提供可运维、可监化:

优化和进化产品的算法能力,赋能用户不断

智能

提升业务的搜索效果体验

标准化:

补齐标准搜索引擎基本能力,完善服务能力评价标准,做到产品功能完整

完善、自洽

搜索效果有效的2个环节

image.png

Query  aj1 北卡兰新款球鞋            

纠错   aj1 北卡蓝新款球鞋         NLP 分析      相关性匹配

类目预测  运动鞋/篮球鞋          质量分析       效率优化  

分词    aj1 北卡蓝新款球鞋      效率分析        运营管控          

命名实体 系列 颜色 营销 产品词                  

词权重 0.8 0.8 0.2 1                                

同义改写  aj1 ->(airjordan 1)

or (air jordan 1)

相似改写  乔丹1北卡蓝潮鞋

查询理解-分词

中文分词难点

-词的界定

-分词歧义

-交叉歧义:同一个字符串,在不同的位置切分,含义不同

-组合歧义:同一个字符串,作为一个整体和分开,含义不同

-未登录词

-行业新词

分词更新生效

- badcase 干预

 问题痛点

-通用领域分词器在细分领域分词效果下降·

-目标领域缺乏人工标注数据

-分词领域迁移存在两大挑战∶

1.OOV〔未登录词)

2.领域间数据分布差异人

 解决思路

领域词汇挖掘:

统计特征(互信息,左右熵

,TF-IDF,词频, POS,...)

成词模型

远程监督:

源领域分词模型

领域词典

查询理解-命名实体识别

问题定义:

2017年3月,王菲将在北京开演唱会。

Time    Person   Location

应用场景∶

搜索推荐: query tagging.title tagging

问答对话: slot filling

信息抽职:实体抽取

翻译:术语识别和翻译

发展趋势:

越来越高

电商实体识别效果

电商model

P

R

F1

LSTM+CRF

75.11

75.35

75.23

BERT+CRF

80

77.78

78.87

GraphNER+实体库+关系库

Gr8phNER+BERT

80.22

81.84

82.33

83.18

81.26

82.51

查询理解-拼写纠错

挖掘

语言模型:iphone case >> ipone case

小【程】序>>小【城】序

拼音vs英文:women vs wo,men(我们)

混淆集:吓人,虾仁,下任

训练

错误翻译模型:Pscnd(*ngl*n)

Pshaoo(运|远)

SMT 模型:argmax(P 语言模型*P 翻译模型)

NMT 模型:argmaxout(P(out|in=男士远动鞋)=男士运动鞋

评估

准召:构建评测集 :Precision;Recall,F1

误杀率:正确 query 误杀:False Alarm Rate

转化:纠错前后 query 下游任务统计

领域通用性:分领域多测试集

在线预测

性能:inference效率优化:RT < 5ms

深度学习模型 CPU 加速+降级兒底

置信度:多档展示样式∶重搜、建议

干预:运营中文、英文术语,定期新词发现

查询理解-词权重分析

用途:1.query 丢词、改写等;2.相关性排序

方法

基于实体识别版本

aj1 北卡蓝 新款 球鞋

系列 颜色 营销 产品词

0.8  0.8  0.2    1

基于用户点击数据生成训练样本

 image.png

词权重模型训练

1.BiLSTM+Sotmax

2.预测标签(7,4.1标签)

3.基于 TW 的改写,在丢词量不变情况下,召回 f 增加了100s

查询理解-类目预测

定义:

给定一个 query,输出 query 意图对应的类目或者类目分布

"iphone11" -→手机

“粉红色连衣裙"->“女装/连衣裙:0.7 ;童装/连衣裙:0.2。。

用途:

召回和排序阶段∶类目相关性、类目打散等

方法:

基于点击反馈

基于文本分类模型

搜索排序-精排排序机制

1667032547345.jpg

注:CTR ( Click Through Rate)点击率=点击次数/展现次数

注: CVR ( Click Conversion Rate ) 点击转化率=用户点击结果到成为一个有效激活的转换率。

排序-文本相关性匹配

文本相关性特征:

BM25F

Jaccard

Postfix

紧密度

不同分词粒度的 termMatch

类目、实体相关性

Query :

aj1北卡蓝新款球鞋

类目:运动鞋/篮球鞋

aj1 北卡蓝新款球鞋

实体∶系列颜色营销产品词

Doc1: NlIKE 耐克女鞋2020新款 Air Jordan 1 Mid 北卡蓝篮球鞋 BQ6472-114类目:运动鞋/篮球鞋

Doc2: Nike 耐克男女鞋 AlR JORDAN1 AJ1 红丝绸黑脚趾篮球鞋 CD0461-01类目︰运动鞋/篮球鞋

Doc3:高档适配新款耐克鞋衣帽包对勾金属配件AJ1鞋带扣装饰品情侣类目:首饰配件

排序-语义相关性匹配

Query:宝贝老是睡觉咳嗽白天好好的

Title1.:宝宝白天不咳嗽晚上咳得很厉害

Title2:宝宝平躺咳嗽厉害是怎么回事

Title3:小孩前几天好好的,这2天白天晚上都不停咳

=>

Title1 > Title2

Title1 > Title3

排序-点击率/转化率预估

用途:提升搜索点击率/转化率

依赖∶用户上传展现、点击、购买、收藏、转化等行为日志

多路召回-多路召回

重查策略

向量召回

个性化召回

搜索排序 -OpenSearch 排序脚本语言 Cava

Cava 特点:

语法和 java 类似

性能与 c++ 相当

支持面向对象编程

支持即时编译

相关文章
|
索引 容器
UE5 学习笔记-01
UE5 学习笔记
|
1月前
|
数据采集 存储 API
阐述:淘宝 API 商品列表数据采集实战经验
本文分享淘宝商品列表API(taobao.items.search)合规采集实战经验,涵盖接口要点、签名加密避坑、限流应对及数据清洗技巧,强调“技术守规、艺术筛数、算术控本”,助力高效低成本获取高质量商品数据。(239字)
|
应用服务中间件 Linux 网络安全
Linux 安装 Nginx 并配置为系统服务(超详细)
Linux 安装 Nginx 并配置为系统服务(超详细)
|
自然语言处理 算法 机器人
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
|
安全 Linux 网络安全
组网神器WireGuard安装与配置教程(超详细)
组网神器WireGuard安装与配置教程(超详细)
61740 2
|
8月前
|
数据采集 安全 数据可视化
数据清洗必看的7个要点
数据清洗是确保分析准确的关键。本文详解七大要点:了解数据、处理缺失值、去重、统一格式、处理异常值、转换类型及验证逻辑一致性,助你打好数据分析基石,避免“垃圾进垃圾出”。
|
数据采集 Oracle Java
如何使用Scala和Selenium爬取知乎视频并保存到本地
如何使用Scala和Selenium爬取知乎视频并保存到本地
523 16
|
XML 存储 API
RAG效果优化:高质量文档解析详解
本文介绍了如何通过高质量的文档解析提升RAG系统整体的效果。
17513 15
|
前端开发 Java 关系型数据库
基于ssm的考研图书电子商务平台,附源码+数据库+论文
考研图书电子商务平台是一个基于Java的B/S架构系统,适用于Windows环境。该平台设有管理员和用户权限,管理员可管理商品、用户、留言板及订单,用户可管理收货地址、订单、收藏及购买商品。技术框架包括前端Vue+HTML+JavaScript+CSS+LayUI,后端SSM,数据库为MySQL。项目包含17个数据库表,支持Maven构建。提供演示视频和详细文档,支持免费远程调试安装,确保顺利运行。
257 13
基于ssm的考研图书电子商务平台,附源码+数据库+论文
|
存储 算法 调度
惊呆了!Python高级数据结构堆与优先队列,竟然能这样优化你的程序性能!
【7月更文挑战第10天】Python的heapq模块实现了堆和优先队列,提供heappush和heappop等函数,支持O(log n)时间复杂度的操作。优先队列常用于任务调度和图算法,优化性能。例如,Dijkstra算法利用最小堆加速路径查找。堆通过列表存储,内存效率高。示例展示了添加、弹出和自定义优先级元素。使用堆优化程序,提升效率。
315 2