spider爬站极度损耗站点流量

简介: 或许部分站长遇到过这样的情况,Baiduspider对一个网站的抓取频率要远高于新内容产出速度,造成了N多的流量被蜘蛛占用。 这样的情况一般是针对小站,因为大站访问量很大,蜘蛛对服务器的频繁访问不会有什么样的影响。

或许部分站长遇到过这样的情况,Baiduspider对一个网站的抓取频率要远高于新内容产出速度,造成了N多的流量被蜘蛛占用。

这样的情况一般是针对小站,因为大站访问量很大,蜘蛛对服务器的频繁访问不会有什么样的影响。但是对于小站而言,如果蜘蛛去爬得很频繁,就会造成很多流量 资源的浪费,而且很多小站都是有IIS限制的,这样的情况发生后对于用户体验也会产生很大的影响,因为网站老久打不开。

      相信很多站长都有遇到过这样的问题,一般产生这样的原因有下面几种原因。

      一、其他程序冒充Baiduspider程序去抓取网站内容。
     
      二、网站程序产生的漏洞,产生了很多无穷尽的url,被百度Baiduspider当成了很多新内容而频繁的抓取。

      出现的这些问题,都有哪些解决方法呢?
对于出现的第一种情况,建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充,Baiduspider的hostname以*.baidu.com的格式命名。

      对于出现的第二种情况,建议分析网站的访问日志,看看 Baiduspider所抓取的内容是否是你想让百度收录的,如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内 容。

      当网站经常访问速度慢,但流量却不是很高的时候,我们可以从蜘蛛的访问日志下手,分析下Baiduspider留下的痕迹,或许问题就出在这里。
     

      但是,现在网站的程序都是很完善的了,一般以第一种原因居多。

目录
相关文章
|
域名解析 运维 关系型数据库
3步!完成WordPress博客迁移与重新部署
服务器到期后,该如何迁移、重新部署WordPress博客呢?
3步!完成WordPress博客迁移与重新部署
|
分布式计算 监控 API
DMS Airflow:企业级数据工作流编排平台的专业实践
DMS Airflow是基于Apache Airflow构建的企业级数据工作流编排平台,深度集成阿里云DMS系统,提供统一认证、智能调度、多任务类型支持及企业级监控能力,助力数据团队高效管理ETL、分析、机器学习等复杂工作流。
279 21
|
6月前
|
存储
阿里云轻量应用服务器收费标准价格表:200Mbps带宽、CPU内存及存储配置详解
阿里云香港轻量应用服务器,200Mbps带宽,免备案,支持多IP及国际线路,月租25元起,年付享8.5折优惠,适用于网站、应用等多种场景。
2086 0
|
大数据 Linux
CentOS自动同步互联网服务器时间
CentOS自动同步互联网服务器时间
4574 0
CentOS自动同步互联网服务器时间
|
Ubuntu Linux 数据库
在Linux中,如何进行软件包升级?
在Linux中,如何进行软件包升级?
|
Linux Perl
sed提取日志中的IP地址
sed提取日志中的IP地址
652 4
|
Ubuntu Oracle 关系型数据库
Oracle VM VirtualBox之Ubuntu 22.04LTS双网卡网络模式配置
这篇文章是关于如何在Oracle VM VirtualBox中配置Ubuntu 22.04LTS虚拟机双网卡网络模式的详细指南,包括VirtualBox网络概述、双网卡网络模式的配置步骤以及Ubuntu系统网络配置。
1939 3
|
弹性计算 对象存储 CDN
2023年阿里云流量计费标准价格表
2023年阿里云流量计费标准价格表,阿里云服务器公网带宽计费模式按固定带宽和按使用流量哪个划算?阿里云百科以北京地域为例,按固定带宽计费1M带宽一个月23元,按使用流量计费1GB流量0.8元,如果云服务器带宽使用率低于10%,那么首选按使用流量计费,如果带宽实际利用率较高的话,按固定带宽计费更划算一些
5770 0
2023年阿里云流量计费标准价格表
|
存储 关系型数据库 MySQL
MySQL主从同步如何保证数据一致性?
MySQL主从同步如何保证数据一致性?
1036 0
MySQL主从同步如何保证数据一致性?