Scrapyd使用教程

简介: 先上github地址:Scrapyd Scrapyd是一个服务,用来运行scrapy爬虫的它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫官方文档:http://scrapyd.

先上github地址:Scrapyd

  • Scrapyd是一个服务,用来运行scrapy爬虫的
  • 它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫
  • 官方文档:http://scrapyd.readthedocs.org/

安装

pip install scrapyd

安装完成后,在你当前的python环境根目录C:\Program Files\Python35\Scripts下,有一个scrapyd.exe,
打开命令行,输入scrapyd,如下图:

img_908fe02c6a185969df348bdb73781aef.png
image.png

这样scrapyd就运行起来了,访问127.0.0.1:6800即可看到可视化界面。

注:如果在命令行运行scrapyd报错如下图:


img_9af2787a52ece467e0056d93903f29ce.png
image.png

先pip list 查看你的attrs这个包的版本 然后降到16.3 再试试,如果还不行,请评论区提问。

理解scrapyd

scrapyd其实就是一个服务器端,真正在部署爬虫的时候,我们需要两个东西:

  1. scrapyd (安装在服务器端)
  2. scrapy-client (客户端)

scrapy-client,它允许我们将本地的scrapy项目打包发送到scrapyd 这个服务端
安装 scrapy-client:pip install scrapy-client

部署scrapy项目

在scrapy项目目录下,有一个scrapy.cfg的配置文件:


img_04f9cfdd2e6e04bcce646cdc7a0c3ac9.png
image.png
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.org/en/latest/deploy.html

[settings]
default = china.settings

[deploy:demo]
url = http://localhost:6800/
project = china

把原先注释掉的url那一行取消注释,这个就是我们要部署到目标服务器的地址,
然后,把[deploy]这里改为[deploy:demo],这里是命名为demo,命名可以任意怎么都可以,只要能标识出来项目就可以。
下边的project 就是我们的工程名,到此配置文件更改完成。

接着,执行scrapyd-deploy,这个命令在windows下是运行不了的,(在mac和linux下都是可以的)因为在我们安装的根目录C:\Program Files\Python35\Scripts中可以查看这个文件是没有后缀名的:

img_01bd6e559e3125cc0b20db06c487c9bd.png
image.png

解决方法:在同目录下,新建文件scrapyd-deploy.bat

@echo off

"C:\Program Files\Python35\python.exe" "C:\Program Files\Python35\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9

上边代码是调用的我的环境中的python.exe路径,大家可以根据自己环境来改变路径做配置。
这样就可以执行scrapyd-deploy这个命令了。
然后,进入到我们爬虫的根目录,运行scrapyd-deploy:


img_ee13463ce8f3ab775638e40b7b8689eb.png
image.png

显示这个就证明我们成功执行了scrapyd-deploy,注意:一定要进入爬虫根目录,就是带有scrapy.cfg的那一层及目录。
接着:
运行:scrapyd-deploy demo -p china
因为上边我们已经配置过scrapy.cfg文件了,这里直接使用配置完的参数即可:


img_d1897b9d579cd3c570574968bc688549.png
image.png

这里显示我们部署成功,可以查看执行启动scrapyd服务端的当先目录下有两个文件夹:

img_427ce90ba091f76a7110e6ab06d62196.png
image.png

到这一步,只是把爬虫项目上传到服务端,并没有启动,
接下来看看如何启动:
先运行命令查看服务端状态: curl http://localhost:6800/daemonstatus.json
img_ccc4ea561b8f30b179d2cae7bee077be.png
image.png

返回的信息告诉我们:都为0
再执行启动命令:
curl http://localhost:6800/schedule.json -d project=china -d spider=china
然后查看网页127.0.0.1:6800
img_d7c4c3a84e8a8934d3486ef3476802f4.png
image.png

再点jobs,

img_07f25c274ba53f2464158e8283bb477b.png
image.png

这边就是我们爬虫运行的状态以及日志。

后续补充:

我们在生产环境中,一般scrapyd是部署在服务器,而我们一般会从本地直接发送到服务器端,这时需要调整
vim /usr/lib/python3/site-packages/scrapyd/default_scrapyd.conf
scrapyd的默认配置文件:
默认scrapyd启动bind绑定的ip地址是127.0.0.1端口是:6800,
将ip地址设置为0.0.0.0
打开配置文件不需要翻页就能够找到bind_address

还有更多更好用的命令,请查阅官方文档,这里只介绍基本用法。

目录
相关文章
|
2月前
|
Web App开发 缓存 JavaScript
【安装指南】nodejs下载、安装与配置详细教程
这篇博文详细介绍了 Node.js 的下载、安装与配置过程,为初学者提供了清晰的指南。读者通过该教程可以轻松完成 Node.js 的安装,了解相关配置和基本操作。文章首先介绍了 Node.js 的背景和应用场景,随后详细说明了下载安装包、安装步骤以及配置环境变量的方法。作者用简洁明了的语言,配以步骤图示,使得读者能够轻松跟随教程完成操作。总的来说,这篇文章为初学者提供了一个友好的入门指南,使他们能够顺利开始使用 Node.js 进行开发。
148 1
【安装指南】nodejs下载、安装与配置详细教程
|
弹性计算 网络安全 开发工具
GitLab的安装及使用教程
GitLab是利用Ruby on Rails一个开源的版本管理系统,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目,与Github类似。本篇教程将教你如何安装部署及使用GitLab。
128798 1
|
5月前
|
Java
SonarQube使用教程
SonarQube使用教程
235 0
|
8月前
|
Windows
TortoiseSVN安装使用教程(超详细)
TortoiseSVN安装使用教程(超详细)
408 0
|
8月前
|
Ubuntu Linux 网络安全
Miniconda安装使用教程
Miniconda安装使用教程
717 0
|
11月前
|
内存技术
面具Magisk官网安装详细教程!
翻译一下官网上的安装教程。基本就是在deepl的基础上润色一下。酷安没有Markdwon,随便放一点点。
1508 0
|
12月前
|
程序员
729.本地离线安装selenium超详细教程
729.本地离线安装selenium超详细教程
271 0
|
Java Windows
Jmeter安装配置详细教程
Jmeter安装配置详细教程
177 0
Jmeter安装配置详细教程
|
存储 缓存 NoSQL
C# Redis安装 使用教程
C# Redis安装 使用教程
151 0
安装pyspider出现的坑
安装pyspider出现的坑