lucence 文档评分公式

简介: 1.简介分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。 score(query,doc)=∑term∈queryscore(term,doc)(1-1)score(query,doc)=\sum _{term \in query} score(term,doc) \tag {1-1}2.term与doc的评分2.1

1.简介

分值计算方式为查询语句query中每个项term与文档doc的评分之和。公式表示见1-1。

score(query,doc)=termqueryscore(term,doc)(1-1)

2.term与doc的评分

2.1 基于tf-idf

score(t,d)=tf(t,d)idf(t)2boost(t,d)lengthNorm(t,d)coord(q,d)queryNorm(q)(2-1)
符号 说明 备注
t term /
d doc /
q term 所在query /
tf(t,d) term在doc中的频率 /
idf(t) 1termdoc /
boost(t,d) 域和文档的加权 在索引期间设置。可以用该方法对某个域或文档进行静态单独加权
lengthNorm(t,d) 域的归一化值 域的归一化(normalization)值,更短的域获得更大的加权。该值在索引期间计算,并保存在索引norm中。
coord(q,d) 协调因子(Coordination factor) 基于doc与query的term的交集的数量。该因子会对包含更多搜索项的文档进行类似AND 的加权。
queryNorm(q) 查询的归一化值 每个term权重的平方和

2.2 基于BM25

score(t,d)=idf(t)(k1+1)tf(t,d)k1((1b)+bdlavgdl)+tf(t,d)(2-2)

k1,b为调节因子,根据经验设置,一般取 k1=2,b=0.75,dl为文档长度,avgdl为所有文档的平均长度。
目录
打赏
0
0
0
0
14
分享
相关文章
|
11月前
PTA-求分数序列的前n项和分数 20
求分数序列的前n项和分数 20
112 0
【推荐】排序模型的评价指标nDCG
nDCG(Normalized Discounted Cumulative Gain)归一化折损累计增益是一种用于评估排序模型性能的指标,它考虑了两个方面:排序的正确性和相关性的程度。
2029 0
|
11月前
|
R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
R语言随机搜索变量选择SSVS估计贝叶斯向量自回归(BVAR)模型
准确率评分
准确率评分是为了衡量一个模型在预测任务中的表现,其中包括三个指标,分别是平均绝对误差(MAE)、平均相对误差(MAE%)和精确样本占比(Ratio@C)。
164 1
从单词嵌入到文档距离 :WMD一种有效的文档分类方法
从单词嵌入到文档距离 :WMD一种有效的文档分类方法
203 0
从单词嵌入到文档距离 :WMD一种有效的文档分类方法
①特征选取之单变量统计、基于模型选择、迭代选择
特征选取之单变量统计、基于模型选择、迭代选择
363 0
①特征选取之单变量统计、基于模型选择、迭代选择
SIGIR21 | 购物篮推荐场景太复杂?没有商品相关性标签?对比学习去噪解决(二)
SIGIR21 | 购物篮推荐场景太复杂?没有商品相关性标签?对比学习去噪解决(二)
285 0
SIGIR21 | 购物篮推荐场景太复杂?没有商品相关性标签?对比学习去噪解决(二)
SIGIR21 | 购物篮推荐场景太复杂?没有商品相关性标签?对比学习去噪解决(一)
SIGIR21 | 购物篮推荐场景太复杂?没有商品相关性标签?对比学习去噪解决(一)
228 0
SIGIR21 | 购物篮推荐场景太复杂?没有商品相关性标签?对比学习去噪解决(一)