什么是蜘蛛陷阱?
说到蜘蛛陷阱,这是个很虚的东西。没有非常正规的说法,蜘蛛陷阱就是网站通过技术漏洞或者认为方式造成的一种策略,一旦搜索引擎开始抓取到站点某个 URL 后,就会通过该页面发现新链接从而诱使搜索引擎蜘蛛无限循环的抓取,也就造成了进去后就无法出来,类似站群的思维方式,这种情况就被称之为蜘蛛陷阱。
如何判断识别网站是否存在蜘蛛陷阱?
这里少羽认为有两种非常简单的方法就能够判断出网站当前是否存在蜘蛛陷阱的情况:
一、网站统计/网站日志,通过直接查看搜索引擎抓取的 URL 中是否存在大量不正常的 URL 地址;
二、网站抓取频率,几乎所有的搜索引擎站长平台都提供的抓取频率和抓取压力的反馈,如果抓取频率突然出现异常的高时,那么很有可能出现蜘蛛陷阱的情况了。
哪些情况容易造成蜘蛛陷阱?
站内搜索
这是几乎所有站点都会存在的功能,由于其功能的特殊性,搜索关键词不确定,搜索时的 URL 也基本为动态情况,例如 WordPress 程序的站点默认搜索就是“https://24bp.cn/?s=关键词”的链接,而这样的动态链接就有无数的可能,如果不利用 robots.txt 文件进行屏蔽,那么搜索引擎是可能会收录这些搜索结果页面,这种原理也是被一些超级外链或者自动外链的工具所利用。
分页、feed
这种情况少羽认为最常见的就是出现在 WordPress 程序上面,文章的评论分页以及 feed,会给一篇文章内容造成重复的页面,虽然不至于直接造成蜘蛛陷阱,但是从网站优化的细节考虑,建议还是通过 robots.txt 禁止屏蔽,如果是评论分页也可以通过页面头部添加“rel=canonical”来规范指向文章 URL。
产品类网站
大多的电子商务网站平台以及产品类的网站都会存在的一个问题,例如一双鞋子有多个不同的尺码颜色等,但是其描述内容和展示都会是一样的,所以很多网站就会出现大量不同的 URL 而且几乎一样的页面,这样也非常容易造成蜘蛛陷阱,浪费搜索引擎资源,重复的页面也会破坏网站 SEO,同样可以通过 robots.txt 和页面头部添加“rel=canonical”来规范页面统一性。
简单总结
蜘蛛陷阱这个问题说大不大说小不小,有人利用这些陷阱提升网站的收录和抓取,虽说不可取却也有可能在短时间内获得不错的收录和排名效果,当然这些可能都只是短时间的,如果网站确确实实存在这些问题,而你想要做好网站,那么记得及时处理。