讲师:徐希杰--阿里巴巴技术专家
视频地址:https://developer.aliyun.com/live/246673
电商行业模板介绍:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch
开放搜索简介
开放搜索是阿里集团搜索业务中台AIOS体系打造的智能搜索云平台。 目前阿里集团内500+业务接入,主要包括钉钉、盒马、菜鸟口碑等,整个集群在索引的文档数量已经超过了600亿 ,日均的PV已经超过了百亿。在双十一当天查询的QPS分值超过了百万,文档实时更新TPS峰值15万+ ,并且整个服务非常平稳,没有任何降级。在2014年开放搜索正式通过阿里云进行商业化输出。
一站式智能搜索业务开发平台
用户侧
pensearch侧
应用场景
电商行业:商品搜索,订单搜索,门店搜
查询分析配百
监控报普开通
行为采朱开通
ABTeST配百
索,数据库加速和分析场景
控制台
算法功能配百
干预词典配互
数据源配
应用结构配百
教育行业:拍照搜题,知识库搜索
优化大师
按索测试
SDK下载
排序配百
搜索报表
内容行业:新闻搜素,社区搜索,视频搜
索,图库搜索
查询理解
排序引学
归一化
拼写纠错
索引召回
分词
在线计算
相关性排序
字段排序
词权重分析
实体识别
炎自预测
API
OpenSearch
核心能力
SDK-Search
打散
统计
算法模型
查询改写
同义词
索引
算法楼型
分词服务
下拉提示
干预服务
核心引擎:高性能,更开放,更适合
训练搜素算法
索引构建
日志分析
算法训练
索引切换
离线计算
召回排序:内置更高水位的搜索基线
OpenSearch
行为数据处理
搜索报表统计
数据校验
多表关联
SDK-Push
效果,达摩院NLP在多行业打磨沉淀
的查询分析,搜索排序等能力,原生
RDS/ODPS/POLARDB接入
行为数据接入
干预数据接入
数据源接入
集成
RDS/ODPS/
搜索引导:千人千面,更高转化
POLARDB
基础服务
充分开放:有内置,可替换;可回
朱群监控
集群调度
配额服务
存储系统
配管服务
流,可定制;
0运维,免部署;
开放搜索产品优势:
- 相比于开源和自建的搜索,在核心引擎上面更稳定,更高性能;
- 达摩院多年在NLP领域相关积累,通过查询分析和排序搜索等形式开放,使用户在初始阶段就具备了一个高质量搜索效果;
- 搜索引导功能支持千人千面;
- 强开放性,支持多种定制的手段,可以有内置的模型,也可以回流用户自己的模型。
- 免运维,无需做运维操;
AI.OS引擎系统
阿里巴巴搜索推荐事业部自研的AI.OS技术体系服务于阿里集团内部90%以上的搜索业务,AI.OS系统天生具有弹性扩缩容,故障快速恢复的能力,比自建或开源的系统更加稳定、更加高效,能够支持海量的数据处理。
电商/O2O场景搜索常见问题
电商行业智能搜索系统
query处理流程
1.用户输入查询词
5.返回搜索结果
4.搜索结果排序
3.访问搜索引擎
2.分析用户查询
精排
结果干预
归化
用户输入
商品建库
下拉提示
停用词
生成搜索结
文本召回
热词
个性化召回
词权重
果页面
向量召回
底纹
纠错
多路结果合并
同义词
粗排
query改写
查询分析
排序服务
搜索引导
搜索引擎
用户在搜索框中输入查询词,然后后端的系统根据对它进行分析,分析的结果发送给搜索引擎,找到用户想要的商品做排序返回用户最想要的商品,最后将这些商品做一些人工干预,或者是直接最终返回的搜索结果页给用户展示出来。
如何构建电商行业智能搜索系统
如果我们从零开始去构建一个电商行业的智能搜索系统,我们需要解决哪些问题那?
- 商品如何建库? 如何准确的理解用户的查询意图?
- 如何为用户提供个性化的搜索体验?
- 如何根据用户的查询返回最匹配的结果?
- 常见的外围功能怎么构建?比如下拉提示、热词、底纹等;
- 相关技术人员问题;
开放搜索电商行业模板搜索架构
商品建库
电商行业模板在应用结构和索引结构上面为用户提供了一个默认的模板。 比如说将商品常用的字段抽象成了它的应用结构,并且根据搜索积累,为这些为电商搜索应用创建的对应的,默认的索引结构,用户可能不需要有相关的领域知识就可以创建出搜索系统应用,查询分析和用意图理解方面,并且结合行业的特征做针对性的分词的优化,行业实体识别的优化,同义词纠错的优化和类目预测的优化。
查询分析链路
NIKE篮球鞋高帮nike篮球鞋高帮
归一化
阿玛施女装>阿玛施女装
电商行业分词
停用词
(阿玛施]女装>阿玛施女装
蓝球鞋二篮球鞋,ipones>iphone
拼写纠错
Query
Nike运动鞋高帮nike:品牌,运动鞋:品类,高帮:款式
行业实体识别
小米全面屏>目:手机平板电脑
类目预测
词权重
Nike运动鞋高帮>(nikeOR耐克)运动鞋高帮
同义词
Query改写
电商行业分词
分词是影响搜索效果的最基础的模块。开放搜索集成了淘宝搜索同款的电商分词器,训练语料来自淘宝搜索多年积累的百万级有标注的电商行业数据。
分词效果对比:
电商语义理解
描述
功能
示例
火锅九块九包邮->火锅,九块九,包邮
分词
对查询词进行分词
停用词
连衣裙!->连衣裙
去除查询词中无效的词
识别查询词中每个词的重要程度,不重要的词不参与召红色连衣裙真好看>"真好看"权重较
词权重
低,不参与召回
KFC->肯德基
同义词
对查询词进行同义词扩展,扩大召回
萧敬疼同款->萧敬腾同款
纠错
识别并纠正查询词的输入错误
识别Query中的品牌,品类,款式,风格等具有电商行
命名实体识别
乔丹篮球鞋>乔丹-品牌;蓝球鞋-品类
业特色的实体
预测查询词与类目的相关程度
苹果->水果类目1,手机类目2
类目预测
命名实体识别
电商NER问题定义
对电商Query和标题进行实体词打标识别其中的品牌、品类、品类修饰、型号、款式等40种类别 ;
难点
- 品牌更新快歧义大;
例:播(女装品牌)、老爸(食品品牌
- 品类存在修饰关系 ;
例:华为手机(品类修饰)透明手机壳(品类)
解决思路
- 现有框架知识库更新
基于老模型链路重新构建全量知识库,F1 69 -> 74
- 标注训练数据,使用神经网络模型
标注10万条数据,耗时4个月,BiLSTM-CRF模型,F1 74 -> 78
- 神经网络模型结合知识库
技术创新GraphNER框架结合监督模型与知识库,F1 78 -> 82
知识库版
模型版
薰风
羽毛球鞋
新品
新品
熏风
羽毛球鞋
新品
品牌
品类
新品
品类
普通
薰
PP
PP
风
羽
HCe
HCS
毛
DPS
球
鞋
DPm
碳
DP
板
查询分析行业增强版效果
query改写
- 文本query
针对查询词处理之后改写的query
- 个性化query
在查询词改写基础之上引入个性化信息,比如u2i,i2i,u2s2等
- 向量query
在查询词改写基础之上引入向量信息,需要对查询词进行向量化
多路召回技术
电商排序
支持两轮排序机制,粗排和精排
粗排参与的文档数量比较多,可能是几万到几十万量级,所以对排序的耗时要求比较严格,从而导致它能使用的特征就比较少。
粗排排序机制
类目相关性分分
文本相关性分分
静态质量分
个性化分
人气分
精排参与的排序的数量比较少,所以打分使用特征可以多一些。
精排排序机制
效率(LTR)
相关性
业务逻辑
流量调控
属性相关性
文本相关性
语义相关性
类目相关性
商业价值分司
个性化分
质量分
其他
pCTR
PCVR
注:CTR(ClickThroughRate)点击率一点击次数/展现次数
注:CYR(CikConversionRate)点击转化率-用户点击结果到成为一个有效激话的转换率
定制排序-Cava脚本
Cava与排序表达式相比有更高的灵活性和开放性,方便用户自由的定制自己的排序规则,它是开放搜索自己研发的一个类java 的语言,性能和C++相当,支持面向对象的程和即时编译;不同的数据类型支持类的定义,多种运算符和一些简单的控流程控制语句。
另外一个很重要的部分是在开发语言的基础之上,开放搜索封装了通用的排序特征和为了方便用户开发排序新的排序特征,也封了一些框架类的相关特征。 通过这些特征,用户可以直接在脚本中引用,从而开发出自己新的排序脚本,大大简化了开发成本。
搜索引导功能
内置热搜、底纹、下拉提示多样搜索引导算法模型,无需开发系统每天自动训练模型,对用户搜索意图起到重要的引导作用,大大降低后续查询意图理解、相关性、排序、运营干预等环节的调优难度,对提升整体业务目标可以起到非常好的铺垫作用。
搜索前引导:
搜索中引导:
下拉提示
取消
kkkkkkkk
水乳
水杯
水杨酸
水龙头防激头
水貂绒外衣女
水龙头
水龙头过滤器
水果
电商行业模板实践案例
案例1客户情况:
某电商购物平台, 与淘宝天猫等一线商家合作,每日选择优惠券供用户领取使用,导购电商行业排名前TOP5;
行业模板应用效果:
- 功能和性能远超同类竞品,无结果率下降20%,CTR绝对值提升3%;
- 工程架构类开发和系统运维人力成本降低,团队成员专注业务开发,帮助业务发展速度更快;
- 搜索引导成交的GMV显著提升;
案例2客户情况:
某上市的电商分期购物平台,为年轻人提供正规化、透明化、个性化的消费金融产品与服务;
行业模板应用效果:
- 商品交易额增长:通过搜索服务增加了商品曝光率,带动商品下单转化,转化率同比增长15% 订单转化提升:
- 从商品详情页到下单页的转化率同比增长20% 接口性能大幅提升;
- 搜索接口耗时从100ms降低到20ms 使企业能够将资源精力着重投入到用户拉新、升级现金业务等的核心业务上;
- 弹性扩容,预估容量峰值,满足双十一大促等特殊时段的搜索服务需求;
如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流
【开放搜索】新用户活动:阿里云实名认证用户享1个月免费试用