lucene 相关性参考

简介: 假期梳理了之前在新浪博客的文档,将一些有用的内容搬到这里。本文是lucene序列原理分享之一:相关性原理。

相关性排序

页面最后修改于 06:28, 30 Dec 2011 修改人 鹰缘 | 历史版本

pagerank

PR是英文Pagerank 的缩写形式,Pagerank取自Google的创始人LarryPage,它是Google排名运算法则(排名公式)的一部分,PagerankGoogle对网页重要性的评估,是Google用来衡量一个网站的好坏的唯一标准。PR值的级别从110级,10级为满分。PR值越高说明该网页越受欢迎。Google把自己的网站的PR值定到9,这说明Google这个网站是非常受欢迎的,也可以说这个网站非常重要。一个PR值为1的网站表明这个网站不太具有流行度,而PR值为710则表明这个网站非常受欢迎。

pagerank php  http://www.pagerankcode.com/

pagerank wiki  http://en.wikipedia.org/wiki/PageRank


vsm

lucene mail  http://lucene.472066.n3.nabble.com/VSM-in-Lucene-again-td642225.html

lucene vsm   http://lucene.apache.org/java/3_0_2/api/all/org/apache/lucene/search/Similarity.html


bm25

bm25  wiki http://en.wikipedia.org/wiki/Okapi_BM25

Bm25 解析 http://ipie.blogbus.com/logs/104136815.html

lucene  Bm25  http://ir.whu.edu.cn:8080/ShowNews.jsp?NewsID=55
lucene bm25  
https://issues.apache.org/jira/browse/LUCENE-2091

lucene query expansion  based on bm25  http://www.unc.edu/~jaguera/query-expansion/

 

目录
相关文章
|
11月前
|
SQL JSON 自然语言处理
白话Elasticsearch01- 结构化搜索之使用term query来搜索数据
白话Elasticsearch01- 结构化搜索之使用term query来搜索数据
267 0
|
存储 自然语言处理 运维
搜索lucene概念扫盲
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。本篇回归基础,从概念介绍起。
98 0
|
自然语言处理 算法 索引