Scrapy项目部署

简介: Scrapy项目部署

Scrapyd-DOC


[TOC]


安装


pip  install  scrapyd
复制代码


API


daemonstatus.json


检查服务的负载状态

示例请求:

curl http://localhost:6800/daemonstatus.json
复制代码


响应示例:

{ "status": "ok", "running": "0", "pending": "0", "finished": "0", "node_name": "node-name" }
复制代码


addversion.json


将项目添加到项目中,如果项目不存在则创建项目

参数:


  • project (字符串,必填) - 项目名称
  • version (字符串,必填) - 项目版本
  • egg (file,required) - 包含项目代码的Python egg


示例请求:

curl http://localhost:6800/addversion.json -F project=myproject -F version=r23 -F egg=@myproject.egg
复制代码


响应示例:

{"status": "ok", "spiders": 3}
复制代码


schedule.json


运行返回作业ID

参数:


  • project (字符串,必填) - 项目名称
  • spider (字符串,必填) - 蜘蛛名称
  • setting (字符串,可选) - 运行蜘蛛时使用的Scrapy设置
  • jobid (字符串,可选) - 用于标识作业的作业ID,覆盖默认生成的UUID
  • _version (string,optional) - 要使用的项目版本
  • 任何其他参数都作为spider参数传递


示例请求:

curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider
复制代码


响应示例:

{"status": "ok", "jobid": "6487ec79947edab326d6db28a2d86511e8247444"}
复制代码

cancel.json

停止。如果作业处于待处理状态,则会将其删除。如果作业正在运行,它将被终止。


参数:


  • project (字符串,必填) - 项目名称
  • job (字符串,必填) - 作业ID


示例请求:

curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444
复制代码


响应示例:

{"status": "ok", "prevstate": "running"}
复制代码


listprojects.json


获取上传到此Scrapy服务器的项目列表

示例请求:

curl http://localhost:6800/listprojects.json
复制代码


响应示例:

{"status": "ok", "projects": ["myproject", "otherproject"]}
复制代码


listversions.json


获取某些项目可用的版本列表。版本按顺序返回,最后一个版本是当前使用的版本


参数:


  • project (字符串,必填) - 项目名称


示例请求:

curl http://localhost:6800/listversions.json?project=myproject
复制代码


响应示例:

{"status": "ok", "versions": ["r99", "r156"]}
复制代码


listspiders.json


获取某个项目的最后一个(除非被覆盖)版本中可用的蜘蛛列表


参数:


  • project (字符串,必填) - 项目名称
  • _version (string,optional) - 要检查的项目的版本


示例请求:

curl http://localhost:6800/listspiders.json?project=myproject
复制代码


响应示例:

{"status": "ok", "spiders": ["spider1", "spider2", "spider3"]}
复制代码


listjobs.json


获取某个项目的待处理,正在运行和已完成的作业列表


参数:


  • project (字符串,选项) - 将结果限制为项目名称


示例请求:

curl http://localhost:6800/listjobs.json?project=myproject | python -m json.tool
复制代码


响应示例:

{
    "status": "ok",
    "pending": [
        {
            "project": "myproject", "spider": "spider1",
            "id": "78391cc0fcaf11e1b0090800272a6d06"
        }
    ],
    "running": [
        {
            "id": "422e608f9f28cef127b3d5ef93fe9399",
            "project": "myproject", "spider": "spider2",
            "start_time": "2012-09-12 10:14:03.594664"
        }
    ],
    "finished": [
        {
            "id": "2f16646cfcaf11e1b0090800272a6d06",
            "project": "myproject", "spider": "spider3",
            "start_time": "2012-09-12 10:14:03.594664",
            "end_time": "2012-09-12 10:24:03.594664"
        }
    ]
}
复制代码


delversion.json


删除项目版本。如果给定项目没有更多可用版本,则该项目也将被删除


参数:


  • project (字符串,必填) - 项目名称
  • version (字符串,必填) - 项目版本


示例请求:

curl http://localhost:6800/delversion.json -d project=myproject -d version=r99
复制代码


响应示例:

{"status": "ok"}
复制代码


delproject.json


删除项目及其所有上载的版本


参数:


  • project (字符串,必填) - 项目名称


示例请求:

curl http://localhost:6800/delproject.json -d project=myproject
复制代码


响应示例:

{"status": "ok"}
复制代码


配置文件


Scrapyd在以下位置搜索配置文件,并按顺序解析它们,最新的配置文件具有更高的优先级:


  • /etc/scrapyd/scrapyd.conf (UNIX)
  • c:\scrapyd\scrapyd.conf (视窗)
  • /etc/scrapyd/conf.d/* (按字母顺序排列,Unix)
  • scrapyd.conf
  • ~/.scrapyd.conf (用户主目录)

配置文件支持以下选项(请参阅示例中的默认值)。

HTTP_PORT

HTTP JSON API将侦听的TCP端口。默认为6800


bind_address

网站和json webservices将侦听的IP地址。默认为127.0.0.1(localhost)

max_proc

将启动的最大并发Scrapy进程数。如果未设置或0将使用系统中可用的cpus数乘以max_proc_per_cpu选项中的值。默认为0


max_proc_per_cpu

每个cpu将启动的最大并发Scrapy进程数。默认为4


调试

是否启用调试模式。默认为off。启用调试模式时,如果处理JSON API调用时出错,则将返回完整的Python回溯(作为纯文本响应)。


eggs_dir

将存储项目egg的目录。


dbs_dir

将存储项目数据库的目录(包括蜘蛛队列)。


logs_dir

将存储Scrapy日志的目录。如果要禁用存储日志,请将此选项设置为空,如下所示:

logs_dir  =
复制代码

items_dir

0.15版本的新功能。

将存储Scrapy项目的目录。默认情况下禁用此选项,因为您需要使用数据库或源导出程序。将其设置为非空会导致通过覆盖scrapy设置将已删除的项目源存储到指定的目录FEED_URI

jobs_to_keep

0.15版本的新功能。


每个蜘蛛保留的已完成作业数。默认为5。这指的是日志和项目。

此设置logs_to_keep在以前的版本中命名。


finished_to_keep

版本0.14中的新功能。


要在启动器中保留的已完成进程数。默认为100。这仅反映在网站/作业端点和相关的json webservices上。


POLL_INTERVAL

用于轮询队列的间隔,以秒为单位。默认为5.0。可以是浮点数,如0.2


Scrapyd-Client


安装:

pip install scrapyd-client
复制代码


运行


  1. scrapyd-deploy 拷贝到scrapy项目于scrapy.cfg同级
  2. 修改scrapy.cfg内容
[settings]
default = cnblogSpider.settings
[deploy:100]
url = http://localhost:6800/
project = cnblogSpider
username = admin
password = admin
复制代码


  1. 启动
scrapyd
复制代码


  1. 发布
scrapyd-deploy <deploy名称> -p <项目名称> -v <版本号>
复制代码


  1. 运行
curl http://127.0.0.1:6800/schedule.json -d project=cnblogSpider -d spider=anjuke



相关文章
|
关系型数据库 MySQL Linux
Alibaba Cloud Linux release 3 (Soaring Falcon)操作系统
Alibaba Cloud Linux release 3 (Soaring Falcon)操作系统
|
人工智能 弹性计算 机器人
如何在阿里云一键部署FlowiseAI
FlowiseAI 是一款开源低代码开发工具,专为构建定制化的语言学习模型(LLM)应用设计。用户可通过拖放界面轻松创建和管理AI驱动的应用,如聊天机器人和数据分析工具。它基于LangChain框架,支持多种AI模型和数据库集成,实现高度定制化的流程自动化。在阿里云上,可以通过一键部署链接快速部署FlowiseAI,并通过简单的几步配置开始使用。详细操作步骤包括创建ECS实例、获取登录信息等。更多细节可见FlowiseAI官网。
|
Kubernetes 容器
Kubernetes(K8S) 镜像拉取策略 imagePullPolicy
Kubernetes(K8S) 镜像拉取策略 imagePullPolicy
286 0
|
缓存 NoSQL Java
在Spring Boot中实现分布式缓存策略
在Spring Boot中实现分布式缓存策略
|
存储 安全 Windows
windows 服务器动态扩容磁盘操作备忘
windows 服务器动态扩容磁盘操作备忘
736 0
windows 服务器动态扩容磁盘操作备忘
|
关系型数据库 MySQL 数据库
基于 Python 的图书借阅管理系统(附报告源码)下
基于 Python 的图书借阅管理系统(附报告源码)
|
机器学习/深度学习 算法 数据挖掘
7个最新的时间序列分析库介绍和代码示例
时间序列分析包括检查随着时间推移收集的数据点,目的是确定可以为未来预测提供信息的模式和趋势。我们已经介绍过很多个时间序列分析库了,但是随着时间推移,新的库和更新也在不断的出现,所以本文将分享8个目前比较常用的,用于处理时间序列问题的Python库。他们是tsfresh, autots, darts, atspy, kats, sktime, greykite。
9550 1
7个最新的时间序列分析库介绍和代码示例
|
Linux Go
Linux 内核调试器(KDB)
Linux 内核调试器(KDB)允许您调试 Linux 内核。这个恰如其名的工具实质上是内核代码的补丁,它允许高手访问内核内存和数据结构。KDB 的主要优点之一就是它不需要用另一台机器进行调试:您可以调试正在运行的内核。
1610 0
|
数据采集 前端开发 数据可视化
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
900 0
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
|
安全 Shell 网络安全
【内网安全-横向移动】WMI-WMIC命令&相关内网工具
【内网安全-横向移动】WMI-WMIC命令&相关内网工具
1057 0
【内网安全-横向移动】WMI-WMIC命令&相关内网工具