行业搜索最佳实践(一)|学习笔记

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
NLP自然语言处理_基础版,每接口每天50万次
简介: 快速学习行业搜索最佳实践(一)

开发者学堂课程【搜索与推荐技术实战训练营行业搜索最佳实践(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/919/detail/14484


行业搜索最佳实践(一)


内容介绍

一、阿里搜索 AI-OS 和达摩院 NLP 概述

二、开放搜索产品和智能化能力介绍

三、行业搜索 case 和案例分析

 

一、阿里搜索 AI-OS 和达摩院 NLP 概述

阿里集团搜索中台演进

1667032023815.jpg

大数据深度学习在线服务体系(AI-OS)

AI-0S 1.0

 1667032042159.jpg

搜索中台-引擎技术进展(支持 SQL)

需求:

搜索匹配了搜索词的门店名,按照配送运力排序每个门店展示匹配了关键词的商品

痛点:

‘之前是自建搜索,商品表是主表,门店表是附表,

配送运力属于门店表上的属性,更新附表后,离线

多表关联触发的 TPS 很大,时效性延迟

解决方案:

多表:门店表,商品表

索引: GEO 空间索引

关联策略∶在线 sQL join

1667032104935.jpg达摩院自然语言智能介绍

定义:自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。

自然语言处理研究是实现完整人工智能的必要技术

image.png

趋势:

1.深度语言模型突妓式发展,引领重要自然语言技术取得进展

2.公有云 NLp 技术服务从通用功能走向定制化服务

3.自然语言技术逐步与行业/场景紧密结合,产生更大价值

达摩院自然语言智能大图

 1667032215390.jpg


二、开放搜索产品和智能化能力介绍

OpenSearch -开箱即用的搜索服务

应用场景:

 电商/内容等对搜索效果有较高要求的场景

数据加速和分析场景

服务能力:

搜索效果一步到位:内置强大的阿里巴巴 NLP 智能分词、实体识别等强大功能,一键复制淘宝搜索的效果

配置灵活,支持数据处理、索引结构、查询分析以及结果非序的可定制

0运维,免部署

 淘宝主搜算法功能原生集成

OpenSearch 产品形式

 1667032261783.jpg

OpenSearch 算法产品化

一键式:

优化产品功能联动,提供模板化、场景化、端到端的行业解决方案

开放式:

透出技术、算法和运维能力,支持脚本和二次开发,提供可运维、可监化:

优化和进化产品的算法能力,赋能用户不断

智能

提升业务的搜索效果体验

标准化:

补齐标准搜索引擎基本能力,完善服务能力评价标准,做到产品功能完整

完善、自洽

搜索效果有效的2个环节

image.png

Query  aj1 北卡兰新款球鞋            

纠错   aj1 北卡蓝新款球鞋         NLP 分析      相关性匹配

类目预测  运动鞋/篮球鞋          质量分析       效率优化  

分词    aj1 北卡蓝新款球鞋      效率分析        运营管控          

命名实体 系列 颜色 营销 产品词                  

词权重 0.8 0.8 0.2 1                                

同义改写  aj1 ->(airjordan 1)

or (air jordan 1)

相似改写  乔丹1北卡蓝潮鞋

查询理解-分词

中文分词难点

-词的界定

-分词歧义

-交叉歧义:同一个字符串,在不同的位置切分,含义不同

-组合歧义:同一个字符串,作为一个整体和分开,含义不同

-未登录词

-行业新词

分词更新生效

- badcase 干预

 问题痛点

-通用领域分词器在细分领域分词效果下降·

-目标领域缺乏人工标注数据

-分词领域迁移存在两大挑战∶

1.OOV〔未登录词)

2.领域间数据分布差异人

 解决思路

领域词汇挖掘:

统计特征(互信息,左右熵

,TF-IDF,词频, POS,...)

成词模型

远程监督:

源领域分词模型

领域词典

查询理解-命名实体识别

问题定义:

2017年3月,王菲将在北京开演唱会。

Time    Person   Location

应用场景∶

搜索推荐: query tagging.title tagging

问答对话: slot filling

信息抽职:实体抽取

翻译:术语识别和翻译

发展趋势:

越来越高

电商实体识别效果

电商model

P

R

F1

LSTM+CRF

75.11

75.35

75.23

BERT+CRF

80

77.78

78.87

GraphNER+实体库+关系库

Gr8phNER+BERT

80.22

81.84

82.33

83.18

81.26

82.51

查询理解-拼写纠错

挖掘

语言模型:iphone case >> ipone case

小【程】序>>小【城】序

拼音vs英文:women vs wo,men(我们)

混淆集:吓人,虾仁,下任

训练

错误翻译模型:Pscnd(*ngl*n)

Pshaoo(运|远)

SMT 模型:argmax(P 语言模型*P 翻译模型)

NMT 模型:argmaxout(P(out|in=男士远动鞋)=男士运动鞋

评估

准召:构建评测集 :Precision;Recall,F1

误杀率:正确 query 误杀:False Alarm Rate

转化:纠错前后 query 下游任务统计

领域通用性:分领域多测试集

在线预测

性能:inference效率优化:RT < 5ms

深度学习模型 CPU 加速+降级兒底

置信度:多档展示样式∶重搜、建议

干预:运营中文、英文术语,定期新词发现

查询理解-词权重分析

用途:1.query 丢词、改写等;2.相关性排序

方法

基于实体识别版本

aj1 北卡蓝 新款 球鞋

系列 颜色 营销 产品词

0.8  0.8  0.2    1

基于用户点击数据生成训练样本

 image.png

词权重模型训练

1.BiLSTM+Sotmax

2.预测标签(7,4.1标签)

3.基于 TW 的改写,在丢词量不变情况下,召回 f 增加了100s

查询理解-类目预测

定义:

给定一个 query,输出 query 意图对应的类目或者类目分布

"iphone11" -→手机

“粉红色连衣裙"->“女装/连衣裙:0.7 ;童装/连衣裙:0.2。。

用途:

召回和排序阶段∶类目相关性、类目打散等

方法:

基于点击反馈

基于文本分类模型

搜索排序-精排排序机制

1667032547345.jpg

注:CTR ( Click Through Rate)点击率=点击次数/展现次数

注: CVR ( Click Conversion Rate ) 点击转化率=用户点击结果到成为一个有效激活的转换率。

排序-文本相关性匹配

文本相关性特征:

BM25F

Jaccard

Postfix

紧密度

不同分词粒度的 termMatch

类目、实体相关性

Query :

aj1北卡蓝新款球鞋

类目:运动鞋/篮球鞋

aj1 北卡蓝新款球鞋

实体∶系列颜色营销产品词

Doc1: NlIKE 耐克女鞋2020新款 Air Jordan 1 Mid 北卡蓝篮球鞋 BQ6472-114类目:运动鞋/篮球鞋

Doc2: Nike 耐克男女鞋 AlR JORDAN1 AJ1 红丝绸黑脚趾篮球鞋 CD0461-01类目︰运动鞋/篮球鞋

Doc3:高档适配新款耐克鞋衣帽包对勾金属配件AJ1鞋带扣装饰品情侣类目:首饰配件

排序-语义相关性匹配

Query:宝贝老是睡觉咳嗽白天好好的

Title1.:宝宝白天不咳嗽晚上咳得很厉害

Title2:宝宝平躺咳嗽厉害是怎么回事

Title3:小孩前几天好好的,这2天白天晚上都不停咳

=>

Title1 > Title2

Title1 > Title3

排序-点击率/转化率预估

用途:提升搜索点击率/转化率

依赖∶用户上传展现、点击、购买、收藏、转化等行为日志

多路召回-多路召回

重查策略

向量召回

个性化召回

搜索排序 -OpenSearch 排序脚本语言 Cava

Cava 特点:

语法和 java 类似

性能与 c++ 相当

支持面向对象编程

支持即时编译

相关文章
|
自然语言处理 算法 搜索推荐
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
|
存储 监控 算法
文档管理软件中的KMP算法:快速搜索与匹配的秘密武器
KMP算法可以用于文档管理软件中的字符串匹配功能。在监控软件中,需要对用户的电脑活动进行监控,包括监控用户输入的文本内容。为了保护公司的机密信息,监控软件需要检测用户输入的文本中是否包含敏感信息,如公司机密信息、禁止使用的词汇等。
159 0
|
搜索推荐 算法 知识图谱
搜索场景下的智能推荐演变之路
本文中,阿里巴巴高级算法专家王悦就为大家分享了搜索场景下的智能推荐演变之路。
|
19天前
|
存储 自然语言处理 搜索推荐
从零开始掌握全文本搜索:快速查找信息的最佳实践
全文本搜索技术(Full-text search)通过关键词或短语快速准确查找文档,其核心在于对文本数据的全面检索和索引。主要步骤包括分词处理、建立倒排索引、关键词匹配和结果排序。常见工具如Lucene、Solr和Elasticsearch提供了强大的搜索功能和高扩展性,适用于大数据和复杂数据分析,广泛应用于搜索引擎、日志分析等领域。
30 0
|
8月前
|
关系型数据库 MySQL
Mysql基础第二十一天,全文本搜索
Mysql基础第二十一天,全文本搜索
57 0
|
SEO
谷歌搜索留痕的技术公式【2023年新版】
一般情况下我们是不建议个人搭建的,因为成本很高,而且技术成本和维护成本也对谷歌的SEO机制要有一定的熟悉。
405 0
谷歌搜索留痕的技术公式【2023年新版】
|
机器学习/深度学习 算法 搜索推荐
多媒体搜索现状(上) | 学习笔记
快速学习多媒体搜索现状(上),介绍了多媒体搜索现状(上)系统机制, 以及在实际应用过程中如何使用。
多媒体搜索现状(上) | 学习笔记
|
机器学习/深度学习 人工智能 算法
多媒体搜索现状(下) | 学习笔记
快速学习多媒体搜索现状(下),介绍了多媒体搜索现状(下)系统机制, 以及在实际应用过程中如何使用。
多媒体搜索现状(下) | 学习笔记
《开放搜索在智能化行业搜索和业务增长领域的应用实践》电子版地址
《开放搜索在智能化行业搜索和业务增长领域的应用实践》PDF
145 0
《开放搜索在智能化行业搜索和业务增长领域的应用实践》电子版地址
|
搜索推荐 SEO
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
502 0

热门文章

最新文章

下一篇
开通oss服务