网页内容抗排重的几种方式

简介:

本来呢,这个应该是不传之秘的,不信到谷歌/baidu去搜搜看,"内容/页面/网页 抗排重"看有没有结果。

不过我根据一个信念,那就是但凡你想得到的,谷歌都能搜得到,若是搜不到呢,那我就把它加上,让谷歌可以搜到。

什么叫做抗排重呢,我们知道,许多网页的内容都是重复的,搜索引擎若是搜到的大篇大篇都是重复内容,自然没人去用了。所以在业界,剔除这些重复内容,通常我们叫做排重,也有叫"消重"的。

这个世界上,有矛就有盾,所以就有了抗排重这么一说。

如今的网页内容排重基本上都是根据信息指纹摘要来做的,这种做法可以保证完全相同的网页,一定能判断出它们重复,可是不完全相同的网页,可能有误判。

大致是:先去除噪声,即页面中的无关紧要的tag,广告,只留下正文内容(详细什么算正文,算法说了算)。然后对正文进行分词,分词完后,去除高频词(事先会有一个高频词表),剩下的结果按照词频排序,组成这样的串,如:

内容10重复8噪声1......

然后从中按一定规则取一部分或许悉数,做一个hash摘要。以后每碰到一个网页,就按此法取摘要值,和已有的进行对比,据此判断是否重复。

下面我引用一段别人总结的抗排重办法:

办法一:拆分法

把原有连续的文章,平均的截取成为2段3段或是更多。

优点:下降类似度、提高访问者阅读的速度、添加页面访问量

缺陷:文章无法连续阅读,原有的一次性阅读变得繁琐,同时对Title标题的优化也有一定的晦气,因为会有重复。不过数量较小的情况下不会有什么大碍。

办法二:跟随法

把每一个段落的结尾都添加一段话,可以是有情提示,小调查,或是其他文章的推荐。

优点:进一步下降类似度,给可以更多讯息,提供更多运用的功能,例如"回到最上面"。

缺陷:运用不当将下降用户体会,若是运用JAVASCEIPT等作有可能影响页面加载速度,干扰客户阅读主线。

办法三:标签法

在特定的关键词后添加友情注释。例如:我们所倡导的SEO(SEO相关信息)思想是......

优点:添加用户体会,让客户可以了解更多并不熟悉的专业名词,从而更好理解文章含义。 还可以自然的重复关键词,添加关键词密度。

缺陷:若是运用过多,会造成页面信息繁乱,下降用户体会。添加页面体积,下降加载速度。干扰原有关键词规划和密度。

办法四:隐身法

将一些没有实践用处的词运用图像代替,经过优化的GIF图像只有十几个字节,将文章中呈现的部分特定字或词进行隐身,也可以很好的到达下降页面类似度的效果。

优点:不干扰关键词规划、不干扰用户体会、不影响阅读和加载速度、有效防止被采集。

缺陷:只是添加少许加载时间,但几乎可以省略不计。

这些办法呢,我没怎么用过,它们不是太麻烦自己就是太麻烦用户,可是我从排重算法本身的缺陷总结了一种办法,可谓万能抗排重法,既让用户用的很爽,自己实现也很轻松,还让搜索引擎摸不着头脑。

今天写累了,改天有空接着写。

注:此文重要意图在于让抗排重几个字能在谷歌搜到,并非为了普及垃圾站建站知识。所以读者不要当真,真有这么好办法我自己留着。

本文转自博客园知识天地的博客,原文链接:网页内容抗排重的几种方式 转载请自行联系原博主。

相关文章
|
8月前
|
JavaScript 前端开发 数据可视化
html解析过程
html解析过程【2月更文挑战第26天】
74 6
|
8月前
【记录】有关接口响应很快,但是在页面渲染的时候发现很慢的问题
【记录】有关接口响应很快,但是在页面渲染的时候发现很慢的问题
193 0
|
4月前
|
网络协议
浅谈网页从请求到显示的过程
浅谈网页从请求到显示的过程
|
14天前
|
数据采集 数据可视化 数据挖掘
cbind与rbind:网页爬取数据的合并策略
短视频数据爬取与合并简介 随着短视频平台的兴起,快手等平台成为信息传播的重要载体。本文探讨如何使用Python爬取并分析快手视频数据,重点介绍cbind和rbind两种数据合并方法。通过代理IP、自定义User-Agent和Cookie配置,以及多线程技术,提高爬取效率和突破率。代码示例展示了如何抓取视频简介和评论,并将其合并为结构化表格,助力高效数据分析。 关键点: 代理IP:避免被限制。 User-Agent和Cookie:增加请求成功率。 多线程:提升处理速度。 cbind和rbind:增强数据完整性和可视化效果。 该方案适用于大量网站数据的高效获取与处理,为数据分析提供有力支持。
cbind与rbind:网页爬取数据的合并策略
|
2月前
|
JavaScript 前端开发 API
浏览器渲染过程中如何处理异步任务
在浏览器渲染过程中,异步任务通过事件循环机制处理。JS执行时,同步任务在主线程上执行,形成一个执行栈。异步任务则被推入任务队列中,待主线程空闲时按顺序调用,确保页面流畅渲染与响应。
|
2月前
|
数据采集 前端开发 JavaScript
动态与静态网站抓取的区别:从抓取策略到性能优化
本文详细介绍了动态与静态网站抓取的区别、抓取策略及性能优化技巧,并提供了相关代码示例。静态网站抓取通过简单的HTTP请求和解析库实现,而动态网站则需使用Selenium等工具模拟浏览器执行JavaScript。文章还展示了如何使用代理IP、多线程和合理的请求头设置来提高抓取效率。
138 2
动态与静态网站抓取的区别:从抓取策略到性能优化
|
4月前
|
缓存 网络协议 CDN
在网页请求到显示的过程中,如何优化网络通信速度?
在网页请求到显示的过程中,如何优化网络通信速度?
192 59
|
8月前
|
缓存 前端开发 JavaScript
|
6月前
|
JavaScript
vue 数据变化触发页面响应的三种方式(解决:数据变化页面无响应/不刷新的问题)【含原理】
vue 数据变化触发页面响应的三种方式(解决:数据变化页面无响应/不刷新的问题)【含原理】
376 0
|
8月前
|
存储 缓存 移动开发
详细介绍HTML5的离线储存(工作原理+使用场景+真实使用步骤)
详细介绍HTML5的离线储存(工作原理+使用场景+真实使用步骤)