lucence 文档评分公式

简介: 1.简介分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。 score(query,doc)=∑term∈queryscore(term,doc)(1-1)score(query,doc)=\sum _{term \in query} score(term,doc) \tag {1-1}2.term与doc的评分2.1

1.简介

分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。

score(query,doc)=termqueryscore(term,doc)(1-1)

2.term与doc的评分

2.1 基于tf-idf

score(t,d)=tf(t,d)idf(t)2boost(t,d)lengthNorm(t,d)coord(q,d)queryNorm(q)(2-1)
符号 说明 备注
t term /
d doc /
q term 所在query /
tf(t,d) term在doc中的频率 /
idf(t) 1termdoc /
boost(t,d) 域和文档的加权 在索引期间设置。可以用该方法对某个域或文档进行静态单独加权
lengthNorm(t,d) 域的归一化值 域的归一化(normalization)值,更短的域获得更大的加权。该值在索引期间计算,并保存在索引norm中。
coord(q,d) 协调因子(Coordination factor) 基于doc与query的term的交集的数量。该因子会对包含更多搜索项的文档进行类似AND 的加权。
queryNorm(q) 查询的归一化值 每个term权重的平方和

2.2 基于BM25

score(t,d)=idf(t)(k1+1)tf(t,d)k1((1b)+bdlavgdl)+tf(t,d)(2-2)

k1,b为调节因子,根据经验设置,一般取 k1=2,b=0.75,dl为文档长度,avgdl为所有文档的平均长度。
目录
相关文章
|
4月前
|
搜索推荐
淘宝粗排问题之引入未曝光样本和随机负样本对粗排模型有何影响,如何解决
淘宝粗排问题之引入未曝光样本和随机负样本对粗排模型有何影响,如何解决
|
7月前
|
前端开发 数据可视化 算法
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
r语言Bootstrap自助法重采样构建统计量T抽样分布近似值可视化|代码分享
|
7月前
|
机器学习/深度学习 算法 数据可视化
Python用KNN(K-近邻)回归、分类、异常值检测预测房价、最优K值选取、误差评估可视化
Python用KNN(K-近邻)回归、分类、异常值检测预测房价、最优K值选取、误差评估可视化
|
7月前
|
算法
R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
|
7月前
R语言分位数回归预测筛选有上升潜力的股票
R语言分位数回归预测筛选有上升潜力的股票
|
数据挖掘 数据库
R实战 | 倾向性评分匹配(PSM)
R实战 | 倾向性评分匹配(PSM)
136 0
|
数据挖掘
R-apply| 基因表达量批量二分类,Get!(修正版)
R-apply| 基因表达量批量二分类,Get!(修正版)
110 0
|
数据可视化 测试技术 智能硬件
5种数值评分标准总结 - 为预测模型找到正确的度量标准
5种数值评分标准总结 - 为预测模型找到正确的度量标准
240 0
5种数值评分标准总结 - 为预测模型找到正确的度量标准
①特征选取之单变量统计、基于模型选择、迭代选择
特征选取之单变量统计、基于模型选择、迭代选择
336 0
①特征选取之单变量统计、基于模型选择、迭代选择