基于投票的热门计数算法策略

简介:

基于投票的热门计数算法策略

类似基于投票的热门计数算法普遍应用在热门文章,热门评论等场景中,
典型的比如网易和今日头条的评论区,国外比如Hacker News和Reddit的主题排序。
 

一.Hacker News的排序算法

Hacker News是一个主题社区,用户可以为主题投票,根据得票数,系统自动统计出热门文章排行榜。
同时主题发表时间也会对排名产生影响,新发表的主题比旧的主题更容易得到好的排名。
 
Hacker News的排名算法是这样实现的:
 
(p – 1) / (t + 2)^G
其中,
  P表示帖子的得票数,减去1是为了忽略发帖人的投票。
  T表示距离发帖的时间(单位为小时),加上2是为了防止最新的帖子导致分母过小(之所以选择2,可能是因为从原始文章出现在其他网站,到转贴至Hacker News,平均需要两个小时)。
  G表示"重力因子"(gravityth power),即将帖子排名往下拉的力量,默认值为1.8。
 
从这个公式来看,决定帖子排名有三个因素:
第一个因素是得票数P。
在其他条件不变的情况下,得票越多,排名越高。
 
第二个因素是距离发帖的时间T。
在其他条件不变的情况下,越是新发表的帖子,排名越高。或者说,一个帖子的排名,会随着时间不断下降。
 
第三个因素是因子G。
它的数值大小决定了排名随时间下降的速度。
G值越大,排名下降得越快,意味着排行榜的更新速度越快。
 

二.Reddit的排序算法

Reddit 是Digg类型网站,国内类似的社区有花瓣网等。
和Hacker News不同,和Reddit允许用户投反对票,
算法如下图:
 
 

1.文章提交时间对排名的影响 

文章提交时间对排名的影响可以总结为以下几点:
提交时间对排名影响巨大,越新的文章排名会越高
文章排名得分不会随时间的流逝而降低,但新文章会比老文章获得更高的分。这跟Hacker News的排名算法有很大区别,它的得分会随时间流逝而降低。
下图表现的是具有相同支持和反对的票数,但时间不同的文章的排名得分情况:
 
 

2.使用对数改变不同范围内的权重计算值

Reddit在算法中使用了对数函数来强化前几票的份量:
前10个赞成票的份量和后面100个的份量,以及再后面1000票的份量是相同的,以此类推
下面是效果图:
 
 

3.反对票对排名的影响

Reddit对反对票使用了简单的加减方法,这种计算方式实际上是有问题的,
一篇文章的的’得分‘定义如下:
up_votes – down_votes
最后的结果就是类似下图:
 
这种计算方式会对既有很多赞成票,又有很多反对票的文章(比如很有争议的文章)带来重大影响,它们可能会比那些只有很少赞成票的文章获得分数更低。
 

三.典型的文章/评论等投票计数算法 

可以考虑使用类似规则引擎的机制去计算权重,在项目中封装独立的模块用于计算热门评论的加权得分,得到列表展现顺序。
 

1.影响列表排序结果的因素 

(1)需要计算的维度
发布时间,点赞数,评论数,内容丰富度(如商品评论等)
 
(2)可以扩展引入计算的维度
用户权重(星级用户/认证用户等)
 

2.不同权重对展现结果的影响 

(1)发表时间
最新的发表的主题的权重大于一段时间以前发表的内容,这个维度的影响可以通过改变对应的时间因素上的因子等调节。
 
(2)点赞和点踩数目
点赞数越多,位置越靠前,点踩数越多,排序位置越靠后,同时不同时间间隔的点赞操作会占权重不同,比如五分钟以内的10个点赞大于一小时以内的20条点赞。
 
(3)评论数目及最近一段时间的评论活跃度
评论数目越多,位置越靠前,同时近期被评论越多,活跃的主题占据的位置会越靠前。
 
(4)内容丰富度
其他纬度类似的情况下,内容越丰富,权重应该越高。
 

3.计算策略

针对上面的几个维度,可以分别整理对排序结果有正面和负面影响的因素,可以使用乘法和加法结合,通过设置不同的因子来调节权重。


本文转自邴越博客园博客,原文链接:http://www.cnblogs.com/binyue/p/6063353.html,如需转载请自行联系原作者
相关文章
|
4月前
|
存储 监控 算法
解析公司屏幕监控软件中 C# 字典算法的数据管理效能与优化策略
数字化办公的时代背景下,企业为维护信息安全并提升管理效能,公司屏幕监控软件的应用日益普及。此软件犹如企业网络的 “数字卫士”,持续记录员工电脑屏幕的操作动态。然而,伴随数据量的持续增长,如何高效管理这些监控数据成为关键议题。C# 中的字典(Dictionary)数据结构,以其独特的键值对存储模式和高效的操作性能,为公司屏幕监控软件的数据管理提供了有力支持。下文将深入探究其原理与应用。
86 4
|
23天前
|
机器学习/深度学习 算法 数据可视化
近端策略优化算法PPO的核心概念和PyTorch实现详解
本文深入解析了近端策略优化(PPO)算法的核心原理,并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程,涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合,适合希望掌握PPO算法及其实现的读者。
215 2
近端策略优化算法PPO的核心概念和PyTorch实现详解
|
2月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
66 4
|
4月前
|
监控 算法 JavaScript
公司局域网管理视域下 Node.js 图算法的深度应用研究:拓扑结构建模与流量优化策略探析
本文探讨了图论算法在公司局域网管理中的应用,针对设备互联复杂、流量调度低效及安全监控困难等问题,提出基于图论的解决方案。通过节点与边建模局域网拓扑结构,利用DFS/BFS实现设备快速发现,Dijkstra算法优化流量路径,社区检测算法识别安全风险。结合WorkWin软件实例,展示了算法在设备管理、流量调度与安全监控中的价值,为智能化局域网管理提供了理论与实践指导。
112 3
|
6月前
|
存储 算法 安全
企业员工数据泄露防范策略:基于 C++ 语言的布隆过滤器算法剖析[如何防止员工泄密]
企业运营过程中,防范员工泄密是信息安全领域的核心议题。员工泄密可能致使企业核心数据、商业机密等关键资产的流失,进而给企业造成严重损失。为应对这一挑战,借助恰当的数据结构与算法成为强化信息防护的有效路径。本文专注于 C++ 语言中的布隆过滤器算法,深入探究其在防范员工泄密场景中的应用。
105 8
|
6月前
|
存储 监控 算法
基于 Python 哈希表算法的员工上网管理策略研究
于当下数字化办公环境而言,员工上网管理已成为企业运营管理的关键环节。企业有必要对员工的网络访问行为予以监控,以此确保信息安全并提升工作效率。在处理员工上网管理相关数据时,适宜的数据结构与算法起着举足轻重的作用。本文将深入探究哈希表这一数据结构在员工上网管理场景中的应用,并借助 Python 代码示例展开详尽阐述。
84 3
|
7月前
|
机器学习/深度学习 存储 算法
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
近端策略优化(PPO)是深度强化学习中高效的策略优化方法,广泛应用于大语言模型的RLHF训练。PPO通过引入策略更新约束机制,平衡了更新幅度,提升了训练稳定性。其核心思想是在优势演员-评论家方法的基础上,采用裁剪和非裁剪项组成的替代目标函数,限制策略比率在[1-ϵ, 1+ϵ]区间内,防止过大的策略更新。本文详细探讨了PPO的基本原理、损失函数设计及PyTorch实现流程,提供了完整的代码示例。
2895 10
近端策略优化(PPO)算法的理论基础与PyTorch代码详解
|
8月前
|
负载均衡 算法
架构学习:7种负载均衡算法策略
四层负载均衡包括数据链路层、网络层和应用层负载均衡。数据链路层通过修改MAC地址转发帧;网络层通过改变IP地址实现数据包转发;应用层有多种策略,如轮循、权重轮循、随机、权重随机、一致性哈希、响应速度和最少连接数均衡,确保请求合理分配到服务器,提升性能与稳定性。
1727 11
架构学习:7种负载均衡算法策略
|
8月前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
1345 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
8月前
|
算法 安全 Java
Java线程调度揭秘:从算法到策略,让你面试稳赢!
在社招面试中,关于线程调度和同步的相关问题常常让人感到棘手。今天,我们将深入解析Java中的线程调度算法、调度策略,探讨线程调度器、时间分片的工作原理,并带你了解常见的线程同步方法。让我们一起破解这些面试难题,提升你的Java并发编程技能!
254 16

热门文章

最新文章