如何限制百度等蜘蛛的抓取频率?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

如何限制百度等蜘蛛的抓取频率?

2016-01-25 17:17:28 5025 1

发现有时候,百度抓取非常频繁,会导致服务器压力过大。如何限制他们的抓取频率?

取消 提交回答
全部回答(1)
  • exinnet
    2019-07-17 18:26:30
    已采纳

    nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。
    nginx的配置:

    全局配置

    limit_req_zone $anti_spider zone=anti_spider:60m rate=200r/m;

    某个server中

    limit_req zone=anti_spider burst=5 nodelay;
    if ($http_user_agent ~* "baiduspider") {
    set $anti_spider $http_user_agent;
    }

    参数说明:
    指令limit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。
    指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。
    指令limit_req 中的 nodelay 表示当已经达到burst值时,再来新请求时,直接返回503
    IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$anti_spider赋值。这样就做到了只对百度蜘蛛进行限制了。

    0 0
+关注
exinnet
淘宝技术专家
91
文章
70
问答
问答排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载