spider爬站极度损耗站点流量

简介: 或许部分站长遇到过这样的情况,Baiduspider对一个网站的抓取频率要远高于新内容产出速度,造成了N多的流量被蜘蛛占用。 这样的情况一般是针对小站,因为大站访问量很大,蜘蛛对服务器的频繁访问不会有什么样的影响。

或许部分站长遇到过这样的情况,Baiduspider对一个网站的抓取频率要远高于新内容产出速度,造成了N多的流量被蜘蛛占用。

这样的情况一般是针对小站,因为大站访问量很大,蜘蛛对服务器的频繁访问不会有什么样的影响。但是对于小站而言,如果蜘蛛去爬得很频繁,就会造成很多流量 资源的浪费,而且很多小站都是有IIS限制的,这样的情况发生后对于用户体验也会产生很大的影响,因为网站老久打不开。

      相信很多站长都有遇到过这样的问题,一般产生这样的原因有下面几种原因。

      一、其他程序冒充Baiduspider程序去抓取网站内容。
     
      二、网站程序产生的漏洞,产生了很多无穷尽的url,被百度Baiduspider当成了很多新内容而频繁的抓取。

      出现的这些问题,都有哪些解决方法呢?
对于出现的第一种情况,建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。

      对于出现的第二种情况,建议分析网站的访问日志,看看 Baiduspider所抓取的内容是否是你想让百度收录的,如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内 容。

      当网站经常访问速度慢,但流量却不是很高的时候,我们可以从蜘蛛的访问日志下手,分析下Baiduspider留下的痕迹,或许问题就出在这里。
     

      但是,现在网站的程序都是很完善的了,一般以第一种原因居多。

目录
相关文章
|
8月前
|
数据采集 存储 XML
给你一个具体的网站,你会如何设计爬虫来抓取数据?
【2月更文挑战第23天】【2月更文挑战第75篇】给你一个具体的网站,你会如何设计爬虫来抓取数据?
122 1
|
2月前
|
数据采集 监控 前端开发
提升当当网数据爬取效率:代理IP并发抓取技术
提升当当网数据爬取效率:代理IP并发抓取技术
|
5月前
|
数据采集 JSON 数据处理
基于Python的B站(哔哩哔哩)视频评论采集,可破解反爬手段,想爬几条爬几条
本文介绍了一个基于Python的B站(哔哩哔哩)视频评论采集工具,能够通过输入视频的av号、BV号或链接,并使用特定的cookie和请求头信息来绕过反爬手段,实现大规模的评论数据采集,并支持将数据解析并保存为CSV格式。
151 0
|
8月前
|
数据采集 JSON API
C#爬虫项目实战:如何解决Instagram网站的封禁问题
C#爬虫项目实战:如何解决Instagram网站的封禁问题
|
搜索推荐 PHP
typecho引入五秒盾,缓解服务器压力
typecho引入五秒盾,缓解服务器压力
115 0
|
搜索推荐 5G 数据安全/隐私保护
想要网站流量好,这一步不可少
想要网站流量好,这一步不可少
237 0
想要网站流量好,这一步不可少
|
数据采集 消息中间件 前端开发
爬虫识别-关键页面访问量-需求及实现思路|学习笔记
快速学习爬虫识别-关键页面访问量-需求及实现思路
147 0
爬虫识别-关键页面访问量-需求及实现思路|学习笔记
|
搜索推荐 JavaScript 前端开发
网络优化中怎么减轻蜘蛛的抓取?
还在等什么,快来一起讨论关注吧,公众号【八点半技术站】,欢迎加入社群
|
数据采集 分布式计算 大数据
爬虫识别-关键页面访问量-实现代码及效果|学习笔记
快速学习爬虫识别-关键页面访问量-实现代码及效果。
114 0
|
JavaScript 前端开发 编解码
网站流量统计实现在原理
1.如何统计停留时间    具体参考“客户统计”相关程序。大致说来,一般有3个表:日表,月表,年表    日表基本设计:IP,进来时间,离开时间,目前时间,停留页面,客户ID(如果登陆),SESSIONID等等    客户访问页面,查询日表有数据没有(SESSIONID),有就更新目前时间和停留页面,没有就新建   判断客户离开时间,可以在前台用JS实现。
2094 0