蜘蛛陷阱的利弊及如何识别蜘蛛陷阱?

简介: 蜘蛛陷阱的利弊及如何识别蜘蛛陷阱?

什么是蜘蛛陷阱?

说到蜘蛛陷阱,这是个很虚的东西。没有非常正规的说法,蜘蛛陷阱就是网站通过技术漏洞或者认为方式造成的一种策略,一旦搜索引擎开始抓取到站点某个 URL 后,就会通过该页面发现新链接从而诱使搜索引擎蜘蛛无限循环的抓取,也就造成了进去后就无法出来,类似站群的思维方式,这种情况就被称之为蜘蛛陷阱。

如何判断识别网站是否存在蜘蛛陷阱?

这里少羽认为有两种非常简单的方法就能够判断出网站当前是否存在蜘蛛陷阱的情况:

一、网站统计/网站日志,通过直接查看搜索引擎抓取的 URL 中是否存在大量不正常的 URL 地址;

二、网站抓取频率,几乎所有的搜索引擎站长平台都提供的抓取频率和抓取压力的反馈,如果抓取频率突然出现异常的高时,那么很有可能出现蜘蛛陷阱的情况了。

哪些情况容易造成蜘蛛陷阱?

站内搜索

这是几乎所有站点都会存在的功能,由于其功能的特殊性,搜索关键词不确定,搜索时的 URL 也基本为动态情况,例如 WordPress 程序的站点默认搜索就是“https://24bp.cn/?s=关键词”的链接,而这样的动态链接就有无数的可能,如果不利用 robots.txt 文件进行屏蔽,那么搜索引擎是可能会收录这些搜索结果页面,这种原理也是被一些超级外链或者自动外链的工具所利用。

分页、feed

这种情况少羽认为最常见的就是出现在 WordPress 程序上面,文章的评论分页以及 feed,会给一篇文章内容造成重复的页面,虽然不至于直接造成蜘蛛陷阱,但是从网站优化的细节考虑,建议还是通过 robots.txt 禁止屏蔽,如果是评论分页也可以通过页面头部添加“rel=canonical”来规范指向文章 URL。

产品类网站

大多的电子商务网站平台以及产品类的网站都会存在的一个问题,例如一双鞋子有多个不同的尺码颜色等,但是其描述内容和展示都会是一样的,所以很多网站就会出现大量不同的 URL 而且几乎一样的页面,这样也非常容易造成蜘蛛陷阱,浪费搜索引擎资源,重复的页面也会破坏网站 SEO,同样可以通过 robots.txt 和页面头部添加“rel=canonical”来规范页面统一性。

简单总结

蜘蛛陷阱这个问题说大不大说小不小,有人利用这些陷阱提升网站的收录和抓取,虽说不可取却也有可能在短时间内获得不错的收录和排名效果,当然这些可能都只是短时间的,如果网站确确实实存在这些问题,而你想要做好网站,那么记得及时处理。

相关文章
|
3月前
|
安全 数据安全/隐私保护
针对一个有意思的钓鱼免杀样本的详细分析
近日跟踪到一个钓鱼样本,比较有意思,沙箱没有跑出行为,如下所示: 做安全,免杀是一个永恒的话题,是一场猫捉老鼠的游戏,通过研究一些对抗型的攻击样本,可以更好的了解攻击者在使用什么技术。
|
3月前
|
数据采集 Web App开发 测试技术
如何避免反爬虫程序检测到爬虫行为?
这段内容介绍了几种避免被反爬虫程序检测的方法:通过调整请求频率并遵循网站规则来模拟自然访问;通过设置合理的User-Agent和其他请求头信息来伪装请求;利用代理IP和分布式架构来管理IP地址;以及采用Selenium等工具模拟人类的浏览行为,如随机点击和滚动页面,使爬虫行为更加逼真。这些技巧有助于降低被目标网站识别的风险。
|
6月前
|
安全 前端开发 PHP
采用PHP开发的医院安全(不良)事件系统源码 医院不良事件有哪些?又该怎样分类呢?也许这篇文章能给予你答案。
医疗安全不容忽视! 医疗不良事件有哪些?又该怎样分类呢?也许这篇文章能给予你答案。
58 1
采用PHP开发的医院安全(不良)事件系统源码 医院不良事件有哪些?又该怎样分类呢?也许这篇文章能给予你答案。
|
5月前
|
数据采集 XML 存储
技术经验分享:C#构造蜘蛛爬虫程序
技术经验分享:C#构造蜘蛛爬虫程序
33 0
|
数据采集 机器人 应用服务中间件
恶意爬虫?能让恶意爬虫遁于无形的小Tips
验证码是阻挡机器人攻击的有效实践,网络爬虫,又被称为网络机器人,是按照一定的规则,自动地抓取网络信息和数据的程序或者脚本。如何防控,这里简单提供几个小Tips。
恶意爬虫?能让恶意爬虫遁于无形的小Tips
|
存储 搜索推荐 定位技术
快速吸收蜘蛛匍匐网站的10个技巧(白狐 公羊seo)
置信大家都晓得百度收录你网站的页面,首先得让百度蜘蛛去爬你的网站,只要让百度蜘蛛喜欢爬你的网站,你的网站收录自然就高了。下面整理10个十分适用的吸收百度蜘蛛匍匐的技巧。
210 0
快速吸收蜘蛛匍匐网站的10个技巧(白狐  公羊seo)
|
数据采集 XML 搜索推荐
网站符合蜘蛛爬行的标准是什么?底层原理是什么?
网站符合蜘蛛爬行的标准是什么?底层原理是什么?
104 0
|
数据采集 搜索推荐 算法
反爬虫的重点:识别爬虫
我们在网站运营的时候,最大的问题就是:我们自己花费几个小时甚至是几天辛辛苦苦创作作的内容,被爬虫只需要 1s 就抓去了。为了保卫我们创作的成果,也为了网站的稳定运行,我们需要对爬虫说:No,我们在反爬虫的过程中最重要的就是如何识别爬虫。
455 0
反爬虫的重点:识别爬虫
|
存储 缓存 监控
请警惕 ES 搜索引擎的三大坑
请警惕 ES 搜索引擎的三大坑
667 0
请警惕 ES 搜索引擎的三大坑
|
搜索推荐 SEO
蜘蛛陷阱的利弊及如何识别蜘蛛陷阱?
蜘蛛陷阱的利弊及如何识别蜘蛛陷阱?
163 0