文档备案控制台

开发者社区彭世瑜的博客文章正文

Python爬虫：scrapy框架Spider类参数设置

2021-11-23 333

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python爬虫：scrapy框架Spider类参数设置

Spider设置

参数	说明	示例
name	爬虫名称，必须唯一	name = “myspider”
handle_httpstatus_list	需要处理的状态码	handle_httpstatus_list = [404]
download_delay	下载延时（单位：s秒）	download_delay = 5
allowed_domains	域名限制	allowed_domains = [“baidu.com”]
custom_settings	用户设置，单独设置爬虫参数	custom_settings ={‘RETRY_TIMES’: 3}
start_urls	起始链接设置	start_urls = [“http://www.baidu.com“]

settings.py或者custom_settings

参数	说明
USER_AGENT	请求头
ROBOTSTXT_OBEY = False	是否遵守robots协议
DOWNLOAD_DELAY = 2	同一个站点抓取延迟（秒s）
CONCURRENT_REQUESTS_PER_DOMAIN = 1	对同一个站点并发线程
CONCURRENT_REQUESTS_PER_IP = 1	对同一个ip并发线程

文章标签：

Python

数据采集

关键词：

Python爬虫

Python框架

Scrapy框架

Scrapy爬虫

爬虫python

码农技术君

目录

相关文章

奔跑的数据

|

数据采集存储数据可视化

分布式爬虫框架Scrapy-Redis实战指南

本文介绍如何使用Scrapy-Redis构建分布式爬虫系统，采集携程平台上热门城市的酒店价格与评价信息。通过代理IP、Cookie和User-Agent设置规避反爬策略，实现高效数据抓取。结合价格动态趋势分析，助力酒店业优化市场策略、提升服务质量。技术架构涵盖Scrapy-Redis核心调度、代理中间件及数据解析存储，提供完整的技术路线图与代码示例。

奔跑的数据

1943 0 2

分布式爬虫框架Scrapy-Redis实战指南

土木林森

|

数据采集存储 JSON

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理，以及存储爬取的数据。通过具体示例，帮助读者掌握Scrapy的核心功能和使用方法，提升数据采集效率。

土木林森

722 6 6

小白学大数据

|

数据采集存储监控

Scrapy框架下地图爬虫的进度监控与优化策略

Scrapy框架下地图爬虫的进度监控与优化策略

小白学大数据

473 3 3

土木林森

|

数据采集前端开发中间件

Python网络爬虫：Scrapy框架的实战应用与技巧分享

【10月更文挑战第26天】Python是一种强大的编程语言，在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架，为开发者提供了强大的工具集。本文通过实战案例，详细解析Scrapy框架的应用与技巧，并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。

土木林森

770 4 4

小白学大数据

|

数据采集中间件 API

在Scrapy爬虫中应用Crawlera进行反爬虫策略

在Scrapy爬虫中应用Crawlera进行反爬虫策略

小白学大数据

547 1 1

武子康

|

消息中间件数据采集数据库

小说爬虫-03 爬取章节的详细内容并保存将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite

小说爬虫-03 爬取章节的详细内容并保存将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite

武子康

366 1 1

dasein58

|

JSON 数据库数据安全/隐私保护

Spider_Python 抓取：华尔街见闻

　　#!/usr/bin/env python 　　# -*- coding:utf-8 -*- 　　import sys 　　import re 　　import urllib, urllib2 　　import requests 　　import pymongo 　　import datetime

dasein58

608 0 0

九月天空

|

10月前

|

数据采集机器学习/深度学习人工智能

Python：现代编程的首选语言

Python：现代编程的首选语言

九月天空

1658 102 103

九月天空

|

10月前

|

数据采集机器学习/深度学习算法框架/工具

Python：现代编程的瑞士军刀

Python：现代编程的瑞士军刀

九月天空

505 104 104

九月天空

|

10月前

|

人工智能自然语言处理算法框架/工具

Python：现代编程的首选语言

Python：现代编程的首选语言

九月天空

397 103 103

热门文章

最新文章

Python爬虫知识点梳理

Python网络爬虫反爬破解策略实战

[python爬虫] Selenium爬取新浪微博内容及用户信息

基于urllib和re模块的爬虫简单实战

Python爬虫day3.2—python异常处理

简单的网络爬虫的python实现

python网络爬虫selenium打开多窗口与切换页面

快速看懂爬虫风险管理防护总览

爬虫，遇到aspx动态加载的验证码怎么办?

Python爬虫教程：Selenium可视化爬虫的快速入门

基于Scrapy-Redis的分布式景点数据爬取与热力图生成

Scrapy框架下地图爬虫的进度监控与优化策略

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

分布式爬虫框架Scrapy-Redis实战指南

BeautifulSoup VS Scrapy：如何选择适合的HTML解析工具？

用Scrapy精准爬取BOSS直聘特定行业职位

在Scrapy爬虫中应用Crawlera进行反爬虫策略

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Scrapy入门到放弃03：理解settings配置，监控scrapy引擎|8月更文挑战

相关课程

更多

Python网络编程

Python Web 框架 Flask 快速入门

Python Web开发基础

Python爬虫实战

Python开发基础入门

Python网络爬虫实战

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

推荐镜像

更多

python-release

下一篇

一条命令迁移，帮你实现 OpenClaw 与 Hermes Agent 记忆互通！