lucene 相关性参考

简介: 假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是lucene序列原理分享之一:相关性原理。

相关性排序

页面最后修改于 06:28, 30 Dec 2011 修改人 鹰缘 | 历史版本

pagerank

PR是英文Pagerank 的缩写形式,Pagerank取自Google的创始人LarryPage,它是Google排名运算法则(排名公式)的一部分,PagerankGoogle对网页重要性的评估,是Google用来衡量一个网站的好坏的唯一标准。PR值的级别从110级,10级为满分。PR值越高说明该网页越受欢迎。Google把自己的网站的PR值定到9,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。一个PR值为1的网站表明这个网站不太具有流行度,而PR值为710则表明这个网站非常受欢迎。

pagerank php  http://www.pagerankcode.com/

pagerank wiki  http://en.wikipedia.org/wiki/PageRank


vsm

lucene mail  http://lucene.472066.n3.nabble.com/VSM-in-Lucene-again-td642225.html

lucene vsm   http://lucene.apache.org/java/3_0_2/api/all/org/apache/lucene/search/Similarity.html


bm25

bm25  wiki http://en.wikipedia.org/wiki/Okapi_BM25

Bm25 解析 http://ipie.blogbus.com/logs/104136815.html

lucene  Bm25  http://ir.whu.edu.cn:8080/ShowNews.jsp?NewsID=55
lucene bm25  
https://issues.apache.org/jira/browse/LUCENE-2091

lucene query expansion  based on bm25  http://www.unc.edu/~jaguera/query-expansion/

 

目录
相关文章
|
算法 索引
阿里云 Elasticsearch 使用 RRF 混排优化语义查询结果对比
Elasticsearch 从8.8版本开始,新增 RRF,支持对多种不同方式召回的多个结果集进行综合再排序,返回最终的排序结果。之前 Elasticsearch 已经分别支持基于 BM25 的相关性排序和向量相似度的召回排序,通过 RRF 可以对这两者的结果进行综合排序,可以提升排序的准确性。
2326 0
|
7月前
|
搜索推荐 开发者
如何在 Elasticsearch 中选择精确 kNN 搜索和近似 kNN 搜索
【6月更文挑战第8天】Elasticsearch 是一款强大的搜索引擎,支持精确和近似 kNN 搜索。精确 kNN 搜索保证高准确性但计算成本高,适用于对精度要求极高的场景。近似 kNN 搜索则通过牺牲部分精度来提升搜索效率,适合大数据量和实时性要求高的情况。开发者应根据业务需求和数据特性权衡选择。随着技术发展,kNN 搜索将在更多领域发挥关键作用。
236 4
|
8月前
|
存储 机器学习/深度学习 搜索推荐
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?
Elasticsearch 8.X 向量检索和普通检索能否实现组合检索?如何实现?
192 3
|
存储 算法 API
Elasticsearch评分相关度算法解析
Elasticsearch评分相关度算法解析
158 0
|
测试技术
Elasticsearch查询结果如何防止搜索词在文档中多次出现时分数增加?
Elasticsearch查询结果如何防止搜索词在文档中多次出现时分数增加?
110 1
|
SQL JSON 自然语言处理
白话Elasticsearch01- 结构化搜索之使用term query来搜索数据
白话Elasticsearch01- 结构化搜索之使用term query来搜索数据
312 0
|
测试技术
solr&lucene spatial search 大规模地理搜索性能堪忧
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。最早发布时间2013年的时候。以下内容非最新版本的性能表现。
137 0
|
自然语言处理 算法 索引