使用nginx限制百度蜘蛛的频繁抓取

简介:

百度蜘蛛抓取量骤增,导致服务器负载很高。最终用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。
nginx的配置:
#全局配置
limit_req_zone $anti_spider zone=anti_spider:60m rate=200r/m;
#某个server中
limit_req zone=anti_spider burst=5 nodelay;
if ($http_user_agent ~* "baiduspider") {
set $anti_spider $http_user_agent;
}

参数说明:
指令limit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。
指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。
指令limit_req 中的 nodelay 表示当已经达到burst值时,再来新请求时,直接返回503
IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$anti_spider赋值。这样就做到了只对百度蜘蛛进行限制了。
详细的参数说明,可以查看官方文档。
http://nginx.org/en/docs/http/ngx_http_limit_req_module.html#limit_req_zone

这个模块对请求的限制采用了漏桶算法。
漏桶算法详见 http://baike.baidu.com/view/2054741.htm
相关代码请查看nginx源码文件 src/http/modules/ngx_http_limit_req_module.c
代码的核心部分是ngx_http_limit_req_lookup 方法。

目录
相关文章
|
数据采集 测试技术 Python
python写的爬虫,抓取百度的搜索结果,被屏蔽了怎么办?
这个问题通常是由于频繁的请求导致百度的反爬虫机制触发了验证码的保护机制
|
数据采集 JSON 数据格式
【PYTHON】——如何抓取百度图片到本地
本篇文章主要介绍一下如何抓取百度图片到本地, 从而实现快速找图的需求
286 0
【PYTHON】——如何抓取百度图片到本地
|
数据采集 JSON 编解码
Python爬虫系列6-百度文库VIP付费数据的抓取
编程难不难?那可不是闹着玩的。不从事这一行的永远不知道这行的艰辛 俗话说的好;爬虫在手天下我有,自从学习了爬虫;看到什么都想盘它一番;直到遇到JS反爬。 不知大家有没有遇到过这种情况;就是你在网上不管是查阅资料也好还是做什么,你会发现其实很多人写的反爬一类的都只给你看结果,你根本不知道这个突破过程是怎么样的,哪怕获取到了代码又有何用;下次再给你一道题,你同样还是不会。你品,你细品...... 我觉得做任何事情一定有在短期内简单可行的方法。学习不应该是苦差事,而应该是快乐的,重要的是找到适合自己的学习方法。师者传道受业解惑!
Python爬虫系列6-百度文库VIP付费数据的抓取
www.20200824.com百度蜘蛛爬行规则和收录要素
百度蜘蛛爬行规则和收录要素:https://www.20200824.com
117 0
www.20200824.com百度蜘蛛爬行规则和收录要素
|
搜索推荐
如何吸引百度蜘蛛加百度站长
如何吸引百度蜘蛛加百度站长:https://www.20200824.com/292.html
193 0
如何吸引百度蜘蛛加百度站长
|
定位技术 开发者 Python
Python编程:通过百度地图接口抓取机构的地址和电话信息
Python编程:通过百度地图接口抓取机构的地址和电话信息
498 0
|
数据采集
百度蜘蛛ip段大全分析爬虫式
百度蜘蛛ip段大全分析爬虫式:https://www.20200824.com
363 0
|
人工智能 数据可视化 API
百度AI进阶实战营第九期:机械手抓取
百度AI进阶实战营第九期:机械手抓取
206 0
百度AI进阶实战营第九期:机械手抓取
|
Web App开发 安全 网络协议
Fiddler 技术篇-捕捉https协议设置,抓取百度https实例演示
Fiddler 技术篇-捕捉https协议设置,抓取百度https实例演示
257 0
Fiddler 技术篇-捕捉https协议设置,抓取百度https实例演示
|
数据采集 Web App开发 前端开发
如何通过 User-Agent 识别百度蜘蛛
如何通过 User-Agent 识别百度蜘蛛
342 0
如何通过 User-Agent 识别百度蜘蛛