写这片文章,是想讨论一下轻量级(相对于Google那种重型复杂的PageRank而言)的网页Rank算法。
一般而言,一个网页是否受欢迎,365Rss.cn所能想到的,应该涉及到3个分子因素:“点击量”、“回复量”、“用户评分”。
注:“分子因素”是我自己想的名词,也即作为被除数的因素。它的数学名词大学教过我忘了。
目前大部分国内站点都片面地关注并在数据库里面记录了以上3个因素。但是很少有网站把这些因素综合起来进行数据挖掘、分析。365Rss.cn在一开始设计的时候就考虑到这3点因素,并设计了各自的权重。
一个网页满分100分。其中:
点击量=20%
回复量=30%
用户评分=50%
计算Rank的时候,365Rss.cn还为“点击量”、“回复量”考虑到了一个分母因素:“网页年龄”。
注:“分母因素”是我自己想的名词,也即作为除数的因素。
为什么不为“用户评分”考虑网页年龄呢,因为一般而言,用户打分后的平均分,并不因为该网页存在的时间长短而成比例。相反,一定时间内的点击和回复率,往往很大程度上决定该网页是否受欢迎。
Rank计算公式如下:
Rank=(用户评分总数/打分次数)*50 +(回复量/网页年龄)*e*30+(点击量/网页年龄)*e*20
注:该公式的e为一个协调常数,具体数字是多少365Rss.cn小组暂未定。
今天太晚了,下次讲365Rss.cn网站采用的改进型轻量级Rank算法。
本文转自Kai的世界,道法自然博客园博客,原文链接:http://www.cnblogs.com/kaima/archive/2007/01/08/614437.html,如需转载请自行联系原作者。