垂直个性化排序之Solr如何支持

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
注册配置 MSE Nacos/ZooKeeper,182元/月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 需求: 个性化得分排序:类似 Score= defaultTextScore*facetA + offlineValue*(1-factorA) 方案: 目前直接支持的排序、全部候选方案。推荐1  和2.  参见样例! 1: sort by (score, offlin

需求:


个性化得分排序:类似 Score=
defaultTextScore*facetA + offlineValue*
1-factorA


方案:


目前直接支持的排序、全部候选方案。推荐1 
2. 
参见样例!

1: sort by
(score,
offlinevalue*fa)   


这里offlinevalue*fa

fa可要可不要

2: sort by
(score*fa +offlinevalue*fb)
 
这里score *fa

其中fa有很多理解,可要是document boost或者field boost  
或者payloadoffline可以是域值

3: sort by
(score*offlinevalue*fa)   


这个场景本质上回到了 score*fa了,又回到了payload 
或者document或者field boost了。

4: sort
by( score * payload |doc_boost | field_boost| term_boost|
queryboost)

需求背景:文本相关第一位的,在文本相关区分度不大的时候,需要将好的商品、或者服务信息优先排(这里仍然受限第一排序文本相关分限制,如果放弃第一维度,只有第二维度的离线分值,那么文本相关性可能非常糟糕,反应到用户就是关键词
不显眼,好的离线值一直占住排头,出现饥饿现象)

进一步扩展,例如topN 先不排序,然后按某种方式排序、实现去重的维度的结果。


分析

1
 
最直接,也是推荐的方式。

3-4一回事,只是实现方式上不同:

2

看起来就显得稍微复杂了,其中fa的理解也有多重,


一种fa不是boost(documentsfieldpayload
),
而是外部直接传入的。从数学公式角度看一码事。

Eg
tf*itf*payload = score  score*fa
=tf*itf*payload*fa,
 
合并fa8payload

就是一项信息了,


同理,offline*fb
 
离线计算好就是offline’了,还是offline 
了。这样2

简化为 score+offline


从上分析来看,只有2种,要么1 
,要么2


对应2本质是
score+offlinevalue所谓的因子只是“逻辑理解”,对应实现来说“完全隐去了”


样例Score+offline

query.set("defType","lucene");

query.setQuery("description:店铺
AND _val_:reord_gpa^0.7");

query.setQuery("description:店铺
AND
_val_:sum\(reord_gpa,1\)");

query.setQuery("(description:店铺)^0.3 AND
_val_:sum\(reord_gpa,1\)"
);


至于: score

中的因子,如果固定0.8,然后所有文档都* 0.8,实际上就等于没起作用。这个0.8 
可以payload或者doc或者field boost引入。


至于:
gpa
中的因子,如果固定0.2,那么就直接在离线计算时算好


另外
 
3.*
版本中

query.setQuery("title:Aokang");

      
query.add("sort","sum(weight1,query({!dismax qf=title
v='
杭州'}))
desc");

      
query.addField("title,score,weight1,weight2,query({!dismax
qf=title v='
杭州'}))");


这种新式,是针对局部
query得分处理的


木有排序计算,直接返回topN,性能考虑

query.set("sort","_docid_ asc");


注解:BoostQParse,boost值乘上默认得分上,而一般_val_是将得分add 
到默认文本分上。
目前基于
3.* 
序列,尚不能直接对默认文本分进行引入到
function中,在4.*可以引用默认得分的中间参数到function中。
目前3.* 可以将function值加上或者乘上默认文本分(dismax的pb),或者局部query得分作为function的参数

最基础的 payload、documentboost、 fieldboost 、tf、itf 仍然是最本质的因子。
其他的扩展仍然是围绕他们展开的。本质没有脱离向量模型。

相关文章
|
消息中间件 存储 分布式计算
【Flume】Flume配置文件详细分析
【4月更文挑战第4天】【Flume】Flume配置文件详细分析
|
3月前
|
SQL 关系型数据库 PostgreSQL
CTE vs 子查询:深入拆解PostgreSQL复杂SQL的隐藏性能差异
本文深入探讨了PostgreSQL中CTE(公共表表达式)与子查询的选择对SQL性能的影响。通过分析两者底层机制,揭示CTE的物化特性及子查询的优化融合优势,并结合多场景案例对比执行效率。最终给出决策指南,帮助开发者根据数据量、引用次数和复杂度选择最优方案,同时提供高级优化技巧和版本演进建议,助力SQL性能调优。
323 1
|
NoSQL 安全 Linux
【Redis入门】在阿里云上快速安装 Redis
如果你最近打算学习 redis 并且买了阿里云的 Linux 服务器,那么借助阿里云服务器和宝塔Linux面板,只需要简单几步就可以安装好 redis。
1319 0
【Redis入门】在阿里云上快速安装 Redis
|
11月前
|
JSON 算法 vr&ar
目标检测笔记(五):查看通过COCOEvaluator生成的coco_instances_results.json文件的详细检测信息,包含AP、AR、MR和DR等
本文介绍了如何使用COCO评估器通过Detectron2库对目标检测模型进行性能评估,生成coco_instances_results.json文件,并利用pycocotools解析该文件以计算AP、AR、MR和DR等关键指标。
818 1
目标检测笔记(五):查看通过COCOEvaluator生成的coco_instances_results.json文件的详细检测信息,包含AP、AR、MR和DR等
|
11月前
|
弹性计算 缓存 搜索推荐
大数据个性化推荐,AWS终端用户解决方案
大数据个性化推荐,AWS终端用户解决方案
|
运维 图形学 Python
从零开始的PICO教程(2)--实时预览应用场景
这篇文章是关于如何使用PICO Unity Live Preview Plugin在PICO设备上进行实时预览应用场景的教程,包括准备工作、操作步骤和故障排查方法。
|
存储 API 持续交付
virsh 的工作原理
`virsh`是基于libvirt API的命令行虚拟机管理工具,适用于自动化部署和管理。它提供交互和非交互模式,用于连接到Hypervisor,执行如创建、管理、配置虚拟机及网络、存储等任务。用户需相应权限,无权限者只能读取信息。virsh通过与libvirtd守护进程通信,实现对虚拟化环境的控制,是系统管理员的强大助手。
330 2
|
JavaScript Java Apache
【SpringBoot】Maven 版本管理与 flatten-maven-plugin 插件的使用及分析
【SpringBoot】Maven 版本管理与 flatten-maven-plugin 插件的使用及分析
4405 0
|
Linux
Linux命令(60)之time
Linux命令(60)之time
96 1
|
JavaScript 数据处理 Python
nodejs | 看看豆瓣Top250电影有哪些?
前面写了`Python` 的版本,然后用 `nodejs` 页写一个吧!
138 0

热门文章

最新文章