开发者学堂课程【搜索与推荐技术实战训练营:行业搜索最佳实践(一)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/919/detail/14484
行业搜索最佳实践(一)
内容介绍
一、阿里搜索 AI-OS 和达摩院 NLP 概述
二、开放搜索产品和智能化能力介绍
三、行业搜索 case 和案例分析
一、阿里搜索 AI-OS 和达摩院 NLP 概述
阿里集团搜索中台演进
大数据深度学习在线服务体系(AI-OS)
AI-0S 1.0
搜索中台-引擎技术进展(支持 SQL)
需求:
搜索匹配了搜索词的门店名,按照配送运力排序每个门店展示匹配了关键词的商品
痛点:
‘之前是自建搜索,商品表是主表,门店表是附表,
配送运力属于门店表上的属性,更新附表后,离线
多表关联触发的 TPS 很大,时效性延迟
解决方案:
多表:门店表,商品表
索引: GEO 空间索引
关联策略∶在线 sQL join
达摩院自然语言智能介绍
定义:自然语言智能研究实现人与计算机之间用语言进行有效通信。它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。
自然语言处理研究是实现完整人工智能的必要技术
趋势:
1.深度语言模型突妓式发展,引领重要自然语言技术取得进展
2.公有云 NLp 技术服务从通用功能走向定制化服务
3.自然语言技术逐步与行业/场景紧密结合,产生更大价值
达摩院自然语言智能大图
二、开放搜索产品和智能化能力介绍
OpenSearch -开箱即用的搜索服务
应用场景:
电商/内容等对搜索效果有较高要求的场景
数据加速和分析场景
服务能力:
搜索效果一步到位:内置强大的阿里巴巴 NLP 智能分词、实体识别等强大功能,一键复制淘宝搜索的效果
配置灵活,支持数据处理、索引结构、查询分析以及结果非序的可定制
0运维,免部署
淘宝主搜算法功能原生集成
OpenSearch 产品形式
OpenSearch 算法产品化
一键式:
优化产品功能联动,提供模板化、场景化、端到端的行业解决方案
开放式:
透出技术、算法和运维能力,支持脚本和二次开发,提供可运维、可监化:
优化和进化产品的算法能力,赋能用户不断
智能
提升业务的搜索效果体验
标准化:
补齐标准搜索引擎基本能力,完善服务能力评价标准,做到产品功能完整
完善、自洽
搜索效果有效的2个环节
Query aj1 北卡兰新款球鞋
纠错 aj1 北卡蓝新款球鞋 NLP 分析 相关性匹配
类目预测 运动鞋/篮球鞋 质量分析 效率优化
分词 aj1 北卡蓝新款球鞋 效率分析 运营管控
命名实体 系列 颜色 营销 产品词
词权重 0.8 0.8 0.2 1
同义改写 aj1 ->(airjordan 1)
or (air jordan 1)
相似改写 乔丹1北卡蓝潮鞋
查询理解-分词
中文分词难点
-词的界定
-分词歧义
-交叉歧义:同一个字符串,在不同的位置切分,含义不同
-组合歧义:同一个字符串,作为一个整体和分开,含义不同
-未登录词
-行业新词
分词更新生效
- badcase 干预
问题痛点
-通用领域分词器在细分领域分词效果下降·
-目标领域缺乏人工标注数据
-分词领域迁移存在两大挑战∶
1.OOV〔未登录词)
2.领域间数据分布差异人
解决思路
领域词汇挖掘:
统计特征(互信息,左右熵
,TF-IDF,词频, POS,...)
成词模型
远程监督:
源领域分词模型
领域词典
查询理解-命名实体识别
问题定义:
2017年3月,王菲将在北京开演唱会。
Time Person Location
应用场景∶
搜索推荐: query tagging.title tagging
问答对话: slot filling
信息抽职:实体抽取
翻译:术语识别和翻译
发展趋势:
越来越高
电商实体识别效果
电商model |
P |
R |
F1 |
LSTM+CRF |
75.11 |
75.35 |
75.23 |
BERT+CRF |
80 |
77.78 |
78.87 |
GraphNER+实体库+关系库 Gr8phNER+BERT |
80.22 81.84 |
82.33 83.18 |
81.26 82.51 |
查询理解-拼写纠错
挖掘
语言模型:iphone case >> ipone case
小【程】序>>小【城】序
拼音vs英文:women vs wo,men(我们)
混淆集:吓人,虾仁,下任
训练
错误翻译模型:Pscnd(*ngl*n)
Pshaoo(运|远)
SMT 模型:argmax(P 语言模型*P 翻译模型)
NMT 模型:argmaxout(P(out|in=男士远动鞋)=男士运动鞋
评估
准召:构建评测集 :Precision;Recall,F1
误杀率:正确 query 误杀:False Alarm Rate
转化:纠错前后 query 下游任务统计
领域通用性:分领域多测试集
在线预测
性能:inference效率优化:RT < 5ms
深度学习模型 CPU 加速+降级兒底
置信度:多档展示样式∶重搜、建议
干预:运营中文、英文术语,定期新词发现
查询理解-词权重分析
用途:1.query 丢词、改写等;2.相关性排序
方法
基于实体识别版本
aj1 北卡蓝 新款 球鞋
系列 颜色 营销 产品词
0.8 0.8 0.2 1
基于用户点击数据生成训练样本
词权重模型训练
1.BiLSTM+Sotmax
2.预测标签(7,4.1标签)
3.基于 TW 的改写,在丢词量不变情况下,召回 f 增加了100s
查询理解-类目预测
定义:
给定一个 query,输出 query 意图对应的类目或者类目分布
"iphone11" -→手机
“粉红色连衣裙"->“女装/连衣裙:0.7 ;童装/连衣裙:0.2。。
用途:
召回和排序阶段∶类目相关性、类目打散等
方法:
基于点击反馈
基于文本分类模型
搜索排序-精排排序机制
注:CTR ( Click Through Rate)点击率=点击次数/展现次数
注: CVR ( Click Conversion Rate ) 点击转化率=用户点击结果到成为一个有效激活的转换率。
排序-文本相关性匹配
文本相关性特征:
BM25F
Jaccard
Postfix
紧密度
不同分词粒度的 termMatch
类目、实体相关性
Query :
aj1北卡蓝新款球鞋
类目:运动鞋/篮球鞋
aj1 北卡蓝新款球鞋
实体∶系列颜色营销产品词
Doc1: NlIKE 耐克女鞋2020新款 Air Jordan 1 Mid 北卡蓝篮球鞋 BQ6472-114类目:运动鞋/篮球鞋
Doc2: Nike 耐克男女鞋 AlR JORDAN1 AJ1 红丝绸黑脚趾篮球鞋 CD0461-01类目︰运动鞋/篮球鞋
Doc3:高档适配新款耐克鞋衣帽包对勾金属配件AJ1鞋带扣装饰品情侣类目:首饰配件
排序-语义相关性匹配
Query:宝贝老是睡觉咳嗽白天好好的
Title1.:宝宝白天不咳嗽晚上咳得很厉害
Title2:宝宝平躺咳嗽厉害是怎么回事
Title3:小孩前几天好好的,这2天白天晚上都不停咳
=>
Title1 > Title2
Title1 > Title3
排序-点击率/转化率预估
用途:提升搜索点击率/转化率
依赖∶用户上传展现、点击、购买、收藏、转化等行为日志
多路召回-多路召回
重查策略
向量召回
个性化召回
搜索排序 -OpenSearch 排序脚本语言 Cava
Cava 特点:
语法和 java 类似
性能与 c++ 相当
支持面向对象编程
支持即时编译