文档备案控制台

开发者社区彭世瑜的博客文章正文

Python爬虫：scrapy爬虫设置随机访问时间间隔

2022-09-02 1253

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：scrapy爬虫设置随机访问时间间隔

代码示例

random_delay_middleware.py

# -*- coding:utf-8 -*-
import logging
import random
import time
class RandomDelayMiddleware(object):
    def __init__(self, delay):
        self.delay = delay
    @classmethod
    def from_crawler(cls, crawler):
        delay = crawler.spider.settings.get("RANDOM_DELAY", 10)
        if not isinstance(delay, int):
            raise ValueError("RANDOM_DELAY need a int")
        return cls(delay)
    def process_request(self, request, spider):
        delay = random.randint(0, self.delay)
        logging.debug("### random delay: %s s ###" % delay)
        time.sleep(delay)

使用方式：

custom_settings = {
        "RANDOM_DELAY": 3,
        "DOWNLOADER_MIDDLEWARES": {
            "middlewares.random_delay_middleware.RandomDelayMiddleware": 999,
        }
    }

说明：

RANDOM_DELAY: 下载随机延时范围，[0, RANDOM_DELAY]

比如上面我设置了3秒，那么随机延时范围将是[0, 3]

如果设置了DOWNLOAD_DELAY 那么，总的延时应该是两者之和：

total_delay = DOWNLOAD_DELAY + RANDOM_DELAY

更精确的说，应该是：

DOWNLOAD_DELAY + 0 < total_delay < DOWNLOAD_DELAY + RANDOM_DELAY

文章标签：

Python

数据采集

关键词：

Python爬虫

Python访问

爬虫访问

Scrapy爬虫

爬虫python

码农技术君

目录

相关文章

小白学大数据

|

8月前

|

数据采集 Web App开发数据安全/隐私保护

实战：Python爬虫如何模拟登录与维持会话状态

实战：Python爬虫如何模拟登录与维持会话状态

小白学大数据

1291 1 2

小白学大数据

|

8月前

|

数据采集存储 JSON

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

Python爬虫常见陷阱：Ajax动态生成内容的URL去重与数据拼接

小白学大数据

232 1 1

winx_19970108018

|

8月前

|

数据采集存储 JavaScript

解析Python爬虫中的Cookies和Session管理

Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储，用于标识用户；Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。

winx_19970108018

490 0 0

凉凉心.

|

8月前

|

Java 数据处理索引

（Pandas）Python做数据处理必选框架之一！（二）：附带案例分析；刨析DataFrame结构和其属性；学会访问具体元素；判断元素是否存在；元素求和、求标准值、方差、去重、删除、排序...

DataFrame结构每一列都属于Series类型，不同列之间数据类型可以不一样，但同一列的值类型必须一致。 DataFrame拥有一个总的 idx记录列，该列记录了每一行的索引在DataFrame中，若列之间的元素个数不匹配，且使用Series填充时，在DataFrame里空值会显示为NaN；当列之间元素个数不匹配，并且不使用Series填充，会报错。在指定了index 属性显示情况下，会按照index的位置进行排序，默认是 [0,1,2,3,...] 从0索引开始正序排序行。

凉凉心.

632 0 1

蒋星熠Jaxonic

|

8月前

|

数据采集监控数据库

Python异步编程实战：爬虫案例

🌟 蒋星熠Jaxonic，代码为舟的星际旅人。从回调地狱到async/await协程天堂，亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验，助你驾驭并发，在二进制星河中谱写极客诗篇。

蒋星熠Jaxonic

713 3 3

Python异步编程实战：爬虫案例

蓝易云

|

9月前

|

数据采集存储 XML

Python爬虫技术：从基础到实战的完整教程

最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.

蓝易云

1083 19 19

小白学大数据

|

9月前

|

数据采集 Web App开发自然语言处理

新闻热点一目了然：Python爬虫数据可视化

新闻热点一目了然：Python爬虫数据可视化

小白学大数据

852 6 6

小白学大数据

|

9月前

|

数据采集 Web App开发前端开发

处理动态Token：Python爬虫应对AJAX授权请求的策略

处理动态Token：Python爬虫应对AJAX授权请求的策略

小白学大数据

761 0 0

小白学大数据

|

9月前

|

数据采集网络协议 API

协程+连接池：高并发Python爬虫的底层优化逻辑

协程+连接池：高并发Python爬虫的底层优化逻辑

小白学大数据

612 0 0

小白学大数据

|

9月前

|

数据采集存储 Web App开发

处理Cookie和Session：让Python爬虫保持连贯的"身份"

处理Cookie和Session：让Python爬虫保持连贯的"身份"

小白学大数据

574 0 2

热门文章

最新文章

Python爬虫知识点梳理

Python网络爬虫反爬破解策略实战

Scrapy分布式、去重增量爬虫的开发与设计

[python爬虫] Selenium爬取新浪微博内容及用户信息

python爬虫之app爬取-微信朋友圈

使用Python打造爬虫程序之破茧而出：Python爬虫遭遇反爬虫机制及应对策略

如何解决爬虫程序中登录时遇到的动态Token问题

基于urllib和re模块的爬虫简单实战

Python爬虫day3.2—python异常处理

用Python做爬虫时相关tips的参考文章集锦（refreshing）

基于python大数据的台风灾害分析及预测系统

基于Python大数据的热门游戏推荐系统

基于python大数据的青少年网络使用情况分析及预测系统

2026版基于python大数据的电影分析可视化系统

基于Python大数据的的电商用户行为分析系统

基于python大数据技术的医疗数据分析与研究

基于python大数据深度学习的酒店评论文本情感分析系统

Python SQLAlchemy模块：从入门到实战的数据库操作指南

基于python大数据的的海洋气象数据可视化平台

基于Python大数据的主流汽车价格分析可视化系统

相关课程

更多

高校精品课-华东师范大学 - Python数据科学基础与实践

【科技少年】Python基础语法

【科技少年】Python绘画编程第一课

面向运维的 python 脚本速成-1024程序员节创造营公益课

Python 脚本入门

Python 脚本进阶

相关电子书

更多

给运维工程师的Python实战课

Python 脚本速查手册

ACE 区域技术发展峰会：Flink Python Table API入门及实践

推荐镜像

更多

python-release

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！