行业搜索最佳实践（一）|学习笔记-阿里云开发者社区

行业搜索最佳实践（一）|学习笔记

2022-10-29 389

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习行业搜索最佳实践（一）

开发者学堂课程【搜索与推荐技术实战训练营：行业搜索最佳实践（一）】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/919/detail/14484

行业搜索最佳实践（一）

内容介绍

一、阿里搜索 AI-OS 和达摩院 NLP 概述

二、开放搜索产品和智能化能力介绍

三、行业搜索 case 和案例分析

一、阿里搜索 AI-OS 和达摩院 NLP 概述

阿里集团搜索中台演进

大数据深度学习在线服务体系（AI-OS）

AI-0S 1.0

搜索中台-引擎技术进展（支持 SQL）

需求：

搜索匹配了搜索词的门店名，按照配送运力排序每个门店展示匹配了关键词的商品

痛点：

‘之前是自建搜索，商品表是主表，门店表是附表，

配送运力属于门店表上的属性，更新附表后，离线

多表关联触发的 TPS 很大，时效性延迟

解决方案：

多表:门店表,商品表

索引: GEO 空间索引

关联策略∶在线 sQL join

达摩院自然语言智能介绍

定义：自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。

自然语言处理研究是实现完整人工智能的必要技术

趋势：

1.深度语言模型突妓式发展,引领重要自然语言技术取得进展

2.公有云 NLp 技术服务从通用功能走向定制化服务

3.自然语言技术逐步与行业/场景紧密结合,产生更大价值

达摩院自然语言智能大图

二、开放搜索产品和智能化能力介绍

OpenSearch -开箱即用的搜索服务

应用场景：

电商/内容等对搜索效果有较高要求的场景

数据加速和分析场景

服务能力：

搜索效果一步到位:内置强大的阿里巴巴 NLP 智能分词、实体识别等强大功能，一键复制淘宝搜索的效果

配置灵活，支持数据处理、索引结构、查询分析以及结果非序的可定制

0运维，免部署

淘宝主搜算法功能原生集成

OpenSearch 产品形式

OpenSearch 算法产品化

一键式：

优化产品功能联动，提供模板化、场景化、端到端的行业解决方案

开放式：

透出技术、算法和运维能力，支持脚本和二次开发，提供可运维、可监化：

优化和进化产品的算法能力，赋能用户不断

智能

提升业务的搜索效果体验

标准化：

补齐标准搜索引擎基本能力，完善服务能力评价标准，做到产品功能完整

完善、自洽

搜索效果有效的2个环节

Query aj1 北卡兰新款球鞋

纠错 aj1 北卡蓝新款球鞋 NLP 分析相关性匹配

类目预测运动鞋/篮球鞋质量分析效率优化

分词 aj1 北卡蓝新款球鞋效率分析运营管控

命名实体系列颜色营销产品词

词权重 0.8 0.8 0.2 1

同义改写 aj1 ->(airjordan 1)

or (air jordan 1)

相似改写乔丹1北卡蓝潮鞋

查询理解-分词

中文分词难点

-词的界定

-分词歧义

-交叉歧义:同一个字符串，在不同的位置切分，含义不同

-组合歧义:同一个字符串，作为一个整体和分开，含义不同

-未登录词

-行业新词

分词更新生效

- badcase 干预

问题痛点

-通用领域分词器在细分领域分词效果下降·

-目标领域缺乏人工标注数据

-分词领域迁移存在两大挑战∶

1.OOV〔未登录词)

2.领域间数据分布差异人

解决思路

领域词汇挖掘：

统计特征(互信息,左右熵

,TF-IDF，词频, POS,...)

成词模型

远程监督：

源领域分词模型

领域词典

查询理解-命名实体识别

问题定义：

2017年3月，王菲将在北京开演唱会。

Time Person Location

应用场景∶

搜索推荐: query tagging.title tagging

问答对话: slot filling

信息抽职:实体抽取

翻译：术语识别和翻译

发展趋势：

越来越高

电商实体识别效果

电商model	P	R	F1
LSTM+CRF	75.11	75.35	75.23
BERT+CRF	80	77.78	78.87
GraphNER+实体库+关系库 Gr8phNER+BERT	80.22 81.84	82.33 83.18	81.26 82.51

查询理解-拼写纠错

挖掘

语言模型：iphone case >> ipone case

小【程】序>>小【城】序

拼音vs英文：women vs wo,men(我们)

混淆集：吓人,虾仁，下任

训练

错误翻译模型：Pscnd(*ngl*n)

Pshaoo(运|远)

SMT 模型：argmax(P 语言模型*P 翻译模型)

NMT 模型：argmaxout(P(out|in=男士远动鞋)=男士运动鞋

评估

准召：构建评测集 :Precision;Recall,F1

误杀率：正确 query 误杀:False Alarm Rate

转化：纠错前后 query 下游任务统计

领域通用性：分领域多测试集

在线预测

性能：inference效率优化:RT < 5ms

深度学习模型 CPU 加速＋降级兒底

置信度：多档展示样式∶重搜、建议

干预：运营中文、英文术语，定期新词发现

查询理解-词权重分析

用途:1.query 丢词、改写等;2.相关性排序

方法

基于实体识别版本

aj1 北卡蓝新款球鞋

系列颜色营销产品词

0.8 0.8 0.2 1

基于用户点击数据生成训练样本

词权重模型训练

1.BiLSTM+Sotmax

2.预测标签(7,4.1标签)

3.基于 TW 的改写，在丢词量不变情况下，召回 f 增加了100s

查询理解-类目预测

定义：

给定一个 query，输出 query 意图对应的类目或者类目分布

"iphone11" -→手机

“粉红色连衣裙"->“女装/连衣裙:0.7 ;童装/连衣裙:0.2。。

用途：

召回和排序阶段∶类目相关性、类目打散等

方法：

基于点击反馈

基于文本分类模型

搜索排序-精排排序机制

注:CTR ( Click Through Rate)点击率=点击次数/展现次数

注: CVR ( Click Conversion Rate ) 点击转化率=用户点击结果到成为一个有效激活的转换率。

排序-文本相关性匹配

文本相关性特征：

BM25F

Jaccard

Postfix

紧密度

不同分词粒度的 termMatch

类目、实体相关性

Query :

aj1北卡蓝新款球鞋

类目:运动鞋/篮球鞋

aj1 北卡蓝新款球鞋

实体∶系列颜色营销产品词

Doc1: NlIKE 耐克女鞋2020新款 Air Jordan 1 Mid 北卡蓝篮球鞋 BQ6472-114类目:运动鞋/篮球鞋

Doc2: Nike 耐克男女鞋 AlR JORDAN1 AJ1 红丝绸黑脚趾篮球鞋 CD0461-01类目︰运动鞋/篮球鞋

Doc3:高档适配新款耐克鞋衣帽包对勾金属配件AJ1鞋带扣装饰品情侣类目:首饰配件

排序-语义相关性匹配

Query:宝贝老是睡觉咳嗽白天好好的

Title1.:宝宝白天不咳嗽晚上咳得很厉害

Title2:宝宝平躺咳嗽厉害是怎么回事

Title3:小孩前几天好好的，这2天白天晚上都不停咳

Title1 > Title2

Title1 > Title3

排序-点击率/转化率预估

用途:提升搜索点击率/转化率

依赖∶用户上传展现、点击、购买、收藏、转化等行为日志

多路召回-多路召回

重查策略

向量召回

个性化召回

搜索排序 -OpenSearch 排序脚本语言 Cava

Cava 特点：

语法和 java 类似

性能与 c++ 相当

支持面向对象编程

支持即时编译