备案控制台

开发者社区数据库文章正文

一日一技：通过参数修改Scrapy的配置信息

2023-05-19 205

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 MongoDB，独享型 2核8GB

简介： 一日一技：通过参数修改Scrapy的配置信息

我们在开发Scrapy爬虫的时候，会把一些常用配置信息写到settings.py中。

例如爬虫需要把数据存入MongoDB里面，那么我可能会把MongoDB的链接URI写到settings.py中：

MONGODB_URI = 'mongodb://localhost'
MONGODB_DB = 'test'
MONGODB_COL = 'info'

但在正式的项目中，我们开发爬虫的时候，一般会有一个测试数据库，而爬虫部署以后会有一个正式数据库，他们的URI是不一样的。

这个时候，可能有一些同学会把两个配置信息都写到settings.py中：

MONGODB_URI = 'mongodb://localhost'
#MONGODB_URI = 'mongodb://user:password@123.15.43.32:7766'
MONGODB_DB = 'test'
MONGODB_COL = 'info'

在本地开发的时候，把正式环境的地址注释掉，部署的时候，解除正式环境URI的注释，然后把测试地址注释掉。

这种方式虽然简单直接，但容易忘记。特别是一不小心在本地把测试数据写入了正式环境的数据库，那就麻烦了。

但实际上，Scrapy可以在 scrapy crawl xxx的时候，传入配置信息。并且这个配置信息拥有最高优先级，即时settings.py中也有相同名字的配置，命令行传入的也会覆盖它。

在命令行传入配置信息的格式为：

scrapy crawl xxx -s MONGODB_URI='mongodb://user:password@123.15.43.32:7766'

当我们这样启动爬虫的时候，爬虫通过 self.settings['MONGODB_URI']获取到的URI就是正式环境的URI了。

文章标签：

云数据库 MongoDB 版

Python

数据采集

NoSQL

MongoDB

数据库

关键词：

Scrapy配置

Scrapy信息

未闻Code

目录

相关文章

叫我阿柒啊

|

数据采集监控中间件

Scrapy入门到放弃03：理解settings配置，监控scrapy引擎|8月更文挑战

Scrapy入门到放弃03：理解settings配置，监控scrapy引擎|8月更文挑战

叫我阿柒啊

179 0 0

咸鱼学Python

|

Ubuntu 搜索推荐 Python

Python | Scrapy必备之配置虚拟环境

Python | Scrapy必备之配置虚拟环境

咸鱼学Python

286 0 0

azlr2a666ct4i

|

数据采集存储 JSON

「Python」爬虫-9.Scrapy框架的初识-公交信息爬取

本文将讲解如何使用scrapy框架完成北京公交信息的获取。

azlr2a666ct4i

892 0 0

小白学大数据

|

数据采集 Web App开发搜索推荐

项目配置之道：优化Scrapy参数提升爬虫效率

项目配置之道：优化Scrapy参数提升爬虫效率

小白学大数据

604 0 0

小白学大数据

|

数据采集监控中间件

解决HTTP 429错误的Scrapy中间件配置

解决HTTP 429错误的Scrapy中间件配置

小白学大数据

280 1 1

奔跑的数据

|

数据采集 JavaScript 前端开发

深入网页分析：利用scrapy_selenium获取地图信息

网页爬虫是一种自动获取网页内容的技术，它可以用于数据采集、信息分析、网站监测等多种场景。然而，有些网页的内容并不是静态的，而是通过JavaScript动态生成的，例如图表、地图等复杂元素。这些元素往往需要用户的交互才能显示出来，或者需要等待一定时间才能加载完成。如果使用传统的爬虫技术，如requests或urllib，就无法获取到这些元素的内容，因为它们只能请求网页的源代码，而不能执行JavaScript代码。我们可以使用scrapy_selenium这个工具，它结合了scrapy和selenium两个强大的库，可以实现对动态网页的爬取。

奔跑的数据

276 0 0

深入网页分析：利用scrapy_selenium获取地图信息

京茶吉鹿

|

Python

Python—scrapy框架配置及实用案例

Python—scrapy框架配置及实用案例

京茶吉鹿

242 0 0

爬虫工程师Azeroth

|

数据采集 JSON API

新手教程 | Python Scrapy框架HTTP代理的配置与调试

做过python爬虫的都知道，HTTP代理的设置时要在发送请求前设置好，那HTTP代理的逻辑点在哪里呢？实际上，只需要在Scrapy 的项目结构中添加就好

爬虫工程师Azeroth

1127 0 0

新手教程 | Python Scrapy框架HTTP代理的配置与调试

托马斯-酷涛

|

数据采集关系型数据库 MySQL

五十四、使用Scrapy爬取北京公交信息（将爬取的数据存入Mysql）

五十四、使用Scrapy爬取北京公交信息（将爬取的数据存入Mysql）

托马斯-酷涛

1040 0 0

五十四、使用Scrapy爬取北京公交信息（将爬取的数据存入Mysql）

码农技术君

|

数据采集 Python

配置Pycharm的Scrapy爬虫Spider子类通用模板

配置Pycharm的Scrapy爬虫Spider子类通用模板

码农技术君

317 0 0

热门文章

最新文章

Scrapy分布式、去重增量爬虫的开发与设计

大数据上云那些事儿：（一）上云工具之爬虫(Scrapy)数据

Python干货：用Scrapy爬电商网站

一日一技：Scrapy 如何正确 Post 发送 JSON 数据

18、 Python快速开发分布式搜索引擎Scrapy精讲—Scrapy启动文件的配置—xpath表达式

Scrapy命令行基本用法

python爬虫之微打赏（scrapy版）

17、Python快速开发分布式搜索引擎Scrapy精讲—深度优先与广度优先原理

4、web爬虫，scrapy模块标签选择器下载图片，以及正则匹配标签

一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

基于Scrapy-Redis的分布式景点数据爬取与热力图生成

Scrapy框架下地图爬虫的进度监控与优化策略

Scrapy结合Selenium实现搜索点击爬虫的最佳实践

分布式爬虫框架Scrapy-Redis实战指南

BeautifulSoup VS Scrapy：如何选择适合的HTML解析工具？

用Scrapy精准爬取BOSS直聘特定行业职位

在Scrapy爬虫中应用Crawlera进行反爬虫策略

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Python网络爬虫：Scrapy框架的实战应用与技巧分享

Scrapy入门到放弃03：理解settings配置，监控scrapy引擎|8月更文挑战

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云oss简介和如何对接使用