行业搜索最佳实践(一)|学习笔记

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
智能开放搜索 OpenSearch向量检索版,4核32GB 1个月
OpenSearch LLM智能问答版免费试用套餐,存储1GB首月+计算资源100CU
简介: 快速学习行业搜索最佳实践(一)

开发者学堂课程【搜索与推荐技术实战训练营行业搜索最佳实践(一)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/919/detail/14484


行业搜索最佳实践(一)


内容介绍

一、阿里搜索 AI-OS 和达摩院 NLP 概述

二、开放搜索产品和智能化能力介绍

三、行业搜索 case 和案例分析

 

一、阿里搜索 AI-OS 和达摩院 NLP 概述

阿里集团搜索中台演进

1667032023815.jpg

大数据深度学习在线服务体系(AI-OS)

AI-0S 1.0

 1667032042159.jpg

搜索中台-引擎技术进展(支持 SQL)

需求:

搜索匹配了搜索词的门店名,按照配送运力排序每个门店展示匹配了关键词的商品

痛点:

‘之前是自建搜索,商品表是主表,门店表是附表,

配送运力属于门店表上的属性,更新附表后,离线

多表关联触发的 TPS 很大,时效性延迟

解决方案:

多表:门店表,商品表

索引: GEO 空间索引

关联策略∶在线 sQL join

1667032104935.jpg达摩院自然语言智能介绍

定义:自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。

自然语言处理研究是实现完整人工智能的必要技术

image.png

趋势:

1.深度语言模型突妓式发展,引领重要自然语言技术取得进展

2.公有云 NLp 技术服务从通用功能走向定制化服务

3.自然语言技术逐步与行业/场景紧密结合,产生更大价值

达摩院自然语言智能大图

 1667032215390.jpg


二、开放搜索产品和智能化能力介绍

OpenSearch -开箱即用的搜索服务

应用场景:

 电商/内容等对搜索效果有较高要求的场景

数据加速和分析场景

服务能力:

搜索效果一步到位:内置强大的阿里巴巴 NLP 智能分词、实体识别等强大功能,一键复制淘宝搜索的效果

配置灵活,支持数据处理、索引结构、查询分析以及结果非序的可定制

0运维,免部署

 淘宝主搜算法功能原生集成

OpenSearch 产品形式

 1667032261783.jpg

OpenSearch 算法产品化

一键式:

优化产品功能联动,提供模板化、场景化、端到端的行业解决方案

开放式:

透出技术、算法和运维能力,支持脚本和二次开发,提供可运维、可监化:

优化和进化产品的算法能力,赋能用户不断

智能

提升业务的搜索效果体验

标准化:

补齐标准搜索引擎基本能力,完善服务能力评价标准,做到产品功能完整

完善、自洽

搜索效果有效的2个环节

image.png

Query  aj1 北卡兰新款球鞋            

纠错   aj1 北卡蓝新款球鞋         NLP 分析      相关性匹配

类目预测  运动鞋/篮球鞋          质量分析       效率优化  

分词    aj1 北卡蓝新款球鞋      效率分析        运营管控          

命名实体 系列 颜色 营销 产品词                  

词权重 0.8 0.8 0.2 1                                

同义改写  aj1 ->(airjordan 1)

or (air jordan 1)

相似改写  乔丹1北卡蓝潮鞋

查询理解-分词

中文分词难点

-词的界定

-分词歧义

-交叉歧义:同一个字符串,在不同的位置切分,含义不同

-组合歧义:同一个字符串,作为一个整体和分开,含义不同

-未登录词

-行业新词

分词更新生效

- badcase 干预

 问题痛点

-通用领域分词器在细分领域分词效果下降·

-目标领域缺乏人工标注数据

-分词领域迁移存在两大挑战∶

1.OOV〔未登录词)

2.领域间数据分布差异人

 解决思路

领域词汇挖掘:

统计特征(互信息,左右熵

,TF-IDF,词频, POS,...)

成词模型

远程监督:

源领域分词模型

领域词典

查询理解-命名实体识别

问题定义:

2017年3月,王菲将在北京开演唱会。

Time    Person   Location

应用场景∶

搜索推荐: query tagging.title tagging

问答对话: slot filling

信息抽职:实体抽取

翻译:术语识别和翻译

发展趋势:

越来越高

电商实体识别效果

电商model

P

R

F1

LSTM+CRF

75.11

75.35

75.23

BERT+CRF

80

77.78

78.87

GraphNER+实体库+关系库

Gr8phNER+BERT

80.22

81.84

82.33

83.18

81.26

82.51

查询理解-拼写纠错

挖掘

语言模型:iphone case >> ipone case

小【程】序>>小【城】序

拼音vs英文:women vs wo,men(我们)

混淆集:吓人,虾仁,下任

训练

错误翻译模型:Pscnd(*ngl*n)

Pshaoo(运|远)

SMT 模型:argmax(P 语言模型*P 翻译模型)

NMT 模型:argmaxout(P(out|in=男士远动鞋)=男士运动鞋

评估

准召:构建评测集 :Precision;Recall,F1

误杀率:正确 query 误杀:False Alarm Rate

转化:纠错前后 query 下游任务统计

领域通用性:分领域多测试集

在线预测

性能:inference效率优化:RT < 5ms

深度学习模型 CPU 加速+降级兒底

置信度:多档展示样式∶重搜、建议

干预:运营中文、英文术语,定期新词发现

查询理解-词权重分析

用途:1.query 丢词、改写等;2.相关性排序

方法

基于实体识别版本

aj1 北卡蓝 新款 球鞋

系列 颜色 营销 产品词

0.8  0.8  0.2    1

基于用户点击数据生成训练样本

 image.png

词权重模型训练

1.BiLSTM+Sotmax

2.预测标签(7,4.1标签)

3.基于 TW 的改写,在丢词量不变情况下,召回 f 增加了100s

查询理解-类目预测

定义:

给定一个 query,输出 query 意图对应的类目或者类目分布

"iphone11" -→手机

“粉红色连衣裙"->“女装/连衣裙:0.7 ;童装/连衣裙:0.2。。

用途:

召回和排序阶段∶类目相关性、类目打散等

方法:

基于点击反馈

基于文本分类模型

搜索排序-精排排序机制

1667032547345.jpg

注:CTR ( Click Through Rate)点击率=点击次数/展现次数

注: CVR ( Click Conversion Rate ) 点击转化率=用户点击结果到成为一个有效激活的转换率。

排序-文本相关性匹配

文本相关性特征:

BM25F

Jaccard

Postfix

紧密度

不同分词粒度的 termMatch

类目、实体相关性

Query :

aj1北卡蓝新款球鞋

类目:运动鞋/篮球鞋

aj1 北卡蓝新款球鞋

实体∶系列颜色营销产品词

Doc1: NlIKE 耐克女鞋2020新款 Air Jordan 1 Mid 北卡蓝篮球鞋 BQ6472-114类目:运动鞋/篮球鞋

Doc2: Nike 耐克男女鞋 AlR JORDAN1 AJ1 红丝绸黑脚趾篮球鞋 CD0461-01类目︰运动鞋/篮球鞋

Doc3:高档适配新款耐克鞋衣帽包对勾金属配件AJ1鞋带扣装饰品情侣类目:首饰配件

排序-语义相关性匹配

Query:宝贝老是睡觉咳嗽白天好好的

Title1.:宝宝白天不咳嗽晚上咳得很厉害

Title2:宝宝平躺咳嗽厉害是怎么回事

Title3:小孩前几天好好的,这2天白天晚上都不停咳

=>

Title1 > Title2

Title1 > Title3

排序-点击率/转化率预估

用途:提升搜索点击率/转化率

依赖∶用户上传展现、点击、购买、收藏、转化等行为日志

多路召回-多路召回

重查策略

向量召回

个性化召回

搜索排序 -OpenSearch 排序脚本语言 Cava

Cava 特点:

语法和 java 类似

性能与 c++ 相当

支持面向对象编程

支持即时编译

相关文章
|
自然语言处理 算法 搜索推荐
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
解锁搜索新境界!让文本语义匹配助你轻松找到你需要的一切!(快速上手baseline)
|
3月前
|
人工智能 安全
新必应打造问题之搜索体验的创新的实现如何解决
新必应打造问题之搜索体验的创新的实现如何解决
17 0
|
机器学习/深度学习 人工智能 算法
多媒体搜索现状(下) | 学习笔记
快速学习多媒体搜索现状(下),介绍了多媒体搜索现状(下)系统机制, 以及在实际应用过程中如何使用。
168 0
多媒体搜索现状(下) | 学习笔记
|
机器学习/深度学习 算法 搜索推荐
多媒体搜索现状(上) | 学习笔记
快速学习多媒体搜索现状(上),介绍了多媒体搜索现状(上)系统机制, 以及在实际应用过程中如何使用。
124 0
多媒体搜索现状(上) | 学习笔记
|
6月前
|
算法 关系型数据库 分布式数据库
如何用 PolarDB 整合age算法插件, 实现图式搜索加速 - 刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB结合图式算法, 实现高效率的刑侦、社交、风控、族谱、推荐等业...
198 0
|
搜索推荐 SEO
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
怎样做好搜索下拉优化?百度搜索推荐词的推广方式
270 0
|
存储 SQL 并行计算
如何用 PolarDB 整合age算法插件, 实现图式搜索加速 - 刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索
PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍PolarDB结合图式算法, 实现高效率的刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索.
395 0
|
机器学习/深度学习 自然语言处理 达摩院
文娱行业搜索最佳实践
本文将详细介绍如何通过“开放搜索(OpenSearch)内容增强版“在文娱垂类场景的应用,提升用户搜索体验,带来更多的业务转化
632 0
|
自然语言处理 运维 搜索推荐
内容社区行业搜索最佳实践
社区内容通常包括UGC和PGC。由于关键词和内容多样性丰富、用词规范程度参差不齐,搜索引擎需要对关键词和内容进行智能语义分析,识别出用户真正的查询意图,找到最全面最相关的结果满足用户需求。本文将详细介绍如何通过“开放搜索(OpenSearch)内容增强版”在社区论坛场景的应用,提升用户搜索体验,带来更多的业务转化
913 0
|
自然语言处理 搜索推荐 算法
行业搜索最佳实践(二)|学习笔记
快速学习行业搜索最佳实践(二)
105 0