谈热文榜的自动去重

简介:

郑昀@玩聚SR 20100106

泛Digg式的热文系统需要有重复内容检测机制。

 

一、Digg的做法

比如Digg在09年6月30日发表了一篇《Dupe Detection Updates Are Here》,指出几点:

  • 通常的重复内容是同一个站点下的同一个Story,只不过链接不同罢了(这在国内论坛很常见,帖子的链接有好多种变换,实际上指向的都是同一个帖子)。此时用文本相似性计算(document similarity algorithm)即可解决。
  • 另一种常见重复是不同网站的同一个(或相似)文章。估计Digg利用自己的search配搭一些参数做搜索,从而快速精确地识别相似的标题和内容。

当你提交给Digg一个链接时,它就已经开始了重复检测,在你填写标题和描述之前。如果它怀疑你可能提交了一个重复文章,那么它会立刻提示你,如下所示:

Digg Goes to the Source to Avoid Duplicates

 

但旋即有人撰文《Digg Duplicate Detection Fail 》指出 Digg宣布重复内容检测的两篇文章就是重复上榜:


可见,人主观上认为的内容重复,和机器模拟判定(复杂的算法也可以很好逼近,比如论文抄袭检测系统,但对于Digg来说,肯定要求算得快且准),还是有些距离的。

 

二、国内的一些问题

国内总是有特殊情况。

比如转贴满天飞。而且多半是转载到大站或名博的文章被推荐被分享的几率远远大于原创站点。

比如国人架设的WordPress的RSS Feed,总是先输出一个中文编码(就是把博文标题URLEncode了)的链接,然后同一篇文章隔一会儿又输出一个英文链接。于是经常两个链接都有人推荐和分享。

比如新浪博客,很多人(包括名博们)经常反复编辑同一篇文章,导致编辑器把同一篇文章保存为N多份,导致同一篇博文一发就是三五篇,链接还都不同,崩溃啊。

比如cnBeta,转贴第三方的文章后,输出的RSS是摘要输出。此时,大家往往分享的是它。这带来两个问题:一,摘要很短,不足以与原文判定是否重复;二,cnBeta投递者往往会修改原文标题,要么加几个字,要么加助词或符号(估计是SEO的需要)。

比如Solidot,以点评夹带原文摘录的方式发布。也是同样的问题:文字内容很短,还加了编辑的文字,更加影响相似性计算;标题往往与原文不同。

比如一些名博转载别人文章时,总会在最前面加上自己的点评,这样就略微影响文本相似性计算。

 

三、SR的做法

SR的热文一开始并没有加入去重功能,一个是认为问题不大,又不是人为提交,不存在Spammer问题;一个是不好确定原创者。(SR不是Digg的人工Digg方式,而是主动收集Google Reader/Twitter/Delicious/等用户的推荐、分享和收藏行为,进行统计,再加入一些简单逻辑,从而决定哪些文章或链接可以上热榜。)

 

后来确实有很多人反映这个问题,同一篇文章很有可能重复上榜三、四次,比如谷奥发布一次,cnBeta转载一次,Solidot点评一次,keso’s view一次,煎蛋转载一次等等。

 

现在的重复内容检测逻辑是:

首先对文章内容较长的,是基于Shingle的重复检测办法;

其次对文章很短的,比如cnBeta摘要输出的RSS内容,比如Solidot,比如南方报业旗下的RSS内容,先提取标签,然后计算文章的标签相似度。

这两种办法算起来很快,但未必总能检测出来重复,继续积累吧。

 

郑昀 北京报道

目录
相关文章
|
24天前
|
人工智能 自然语言处理 Shell
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
本教程指导用户在开源AI助手Clawdbot中集成阿里云百炼API,涵盖安装Clawdbot、获取百炼API Key、配置环境变量与模型参数、验证调用等完整流程,支持Qwen3-max thinking (Qwen3-Max-2026-01-23)/Qwen - Plus等主流模型,助力本地化智能自动化。
33813 134
🦞 如何在 OpenClaw (Clawdbot/Moltbot) 配置阿里云百炼 API
|
6天前
|
人工智能 自然语言处理 监控
OpenClaw skills重构量化交易逻辑:部署+AI全自动炒股指南(2026终极版)
2026年,AI Agent领域最震撼的突破来自OpenClaw(原Clawdbot)——这个能自主规划、执行任务的智能体,用50美元启动资金创造了48小时滚雪球至2980美元的奇迹,收益率高达5860%。其核心逻辑堪称教科书级:每10分钟扫描Polymarket近千个预测市场,借助Claude API深度推理,交叉验证NOAA天气数据、体育伤病报告、加密货币链上情绪等多维度信息,捕捉8%以上的定价偏差,再通过凯利准则将单仓位严格控制在总资金6%以内,实现低风险高频套利。
2887 11
|
19天前
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
7305 21
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
|
18天前
|
人工智能 机器人 Linux
OpenClaw(Clawdbot、Moltbot)汉化版部署教程指南(零门槛)
OpenClaw作为2026年GitHub上增长最快的开源项目之一,一周内Stars从7800飙升至12万+,其核心优势在于打破传统聊天机器人的局限,能真正执行读写文件、运行脚本、浏览器自动化等实操任务。但原版全英文界面对中文用户存在上手门槛,汉化版通过覆盖命令行(CLI)与网页控制台(Dashboard)核心模块,解决了语言障碍,同时保持与官方版本的实时同步,确保新功能最快1小时内可用。本文将详细拆解汉化版OpenClaw的搭建流程,涵盖本地安装、Docker部署、服务器远程访问等场景,同时提供环境适配、问题排查与国内应用集成方案,助力中文用户高效搭建专属AI助手。
5142 12
|
20天前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
5908 23
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手

热门文章

最新文章