Scrapy可视化管理管理工具总结

简介: Scrapy可视化管理管理工具总结

1、scrapyd

项目地址:https://github.com/scrapy/scrapyd


文档: https://scrapyd.readthedocs.io/


Scrapyd 是一个运行 Scrapy 爬虫程序的服务


pip install scrapyd
scrapyd  # 启动服务

环境测试: http://localhost:6800/

image.png


2、ScrapydAPI

项目地址:https://github.com/djm/python-scrapyd-api


一个 Scrapyd API 的python封装


pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')

3、ScrapydArt

项目地址:https://github.com/dequinns/ScrapydArt


ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API


pip install scrapydart 
$ scrapydart  # 启动

web界面 http://localhost:6800

image.png


4、ScrapydWeb

项目地址:https://github.com/my8100/scrapydweb


功能特性:

Scrapyd 集群管理

Scrapy 日志分析

支持所有 Scrapyd API

web UI 支持 Basic Auth


pip install scrapydweb
$ scrapydweb -h    # 初始化
$ scrapydweb  # 启动

管理页面:http://127.0.0.1:5000

image.png



参考:

如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目


5、Gerapy

项目地址:https://github.com/Gerapy/Gerapy


一款分布式爬虫管理框架

控制爬虫运行,

查看爬虫状态,

查看爬取结果,

项目部署,

主机管理,

编写爬虫代码


pip3 install gerapy
$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

web界面: http://localhost:8000

image.png


参考:

scrapyd部署、使用Gerapy 分布式爬虫管理框架


6、SpiderKeeper

项目地址:https://github.com/DormyMo/SpiderKeeper

一个scrapyd的可视化工具


pip install spiderkeeper
$ spiderkeeper  # 启动

web ui : http://localhost:5000


image.png

7、SpiderAdmin

github: https://github.com/mouday/SpiderAdmin

pypi: https://pypi.org/project/spideradmin/


功能介绍

1、对Scrapyd 接口进行可视化封装,对Scrapy爬虫项目进行删除 和 查看


2、对爬虫设置定时任务,支持apscheduler 的3中方式和随机延时,共计4中方式

单次运行 date

周期运行 corn

间隔运行 interval

随机运行 random


3、基于Flask-BasicAuth 做了简单的权限校验


启动运行


$ pip3 install spideradmin
$ spideradmin       # 启动服务

访问:

http://127.0.0.1:5000/


image.png

8、Spider Admin Pro

Github: https://github.com/mouday/spider-admin-pro


Gitee: https://gitee.com/mouday/spider-admin-pro


Pypi: https://pypi.org/project/spider-admin-pro


Spider Admin Pro 是Spider Admin的升级版


简化了一些功能;

优化了前端界面,基于Vue的组件化开发;

优化了后端接口,对后端项目进行了目录划分;

整体代码利于升级维护。

目前仅对Python3进行了支持


运行启动


$ pip3 install spider-admin-pro
$ python3 -m spider_admin_pro.run

image.png


总结


image.png

image.png

相关文章
|
数据采集 中间件 Python
Python爬虫:scrapy管理服务器返回的cookie
Python爬虫:scrapy管理服务器返回的cookie
424 0
|
3月前
|
数据采集 数据可视化 数据挖掘
基于python django的scrapy去哪儿网数据采集与分析,包括登录注册和可视化大屏,有md5加密
本文介绍了一个基于Python和Django框架,使用Scrapy进行去哪儿网数据采集与分析的项目,包括实现登录注册功能、MD5加密以及通过可视化大屏展示分析结果的综合系统。
基于python django的scrapy去哪儿网数据采集与分析,包括登录注册和可视化大屏,有md5加密
|
4月前
|
数据采集 存储 缓存
使用Scrapy进行网络爬取时的缓存策略与User-Agent管理
使用Scrapy进行网络爬取时的缓存策略与User-Agent管理
|
JSON 中间件 API
Scrapy中的parse命令:灵活处理CSV数据的多功能工具
Scrapy是一个用Python编写的开源框架,它可以快速地从网站上抓取数据。Scrapy提供了许多强大的功能,其中之一就是parse命令,它可以让你灵活地处理CSV数据。CSV(逗号分隔值)是一种常用的数据格式,它用逗号来分隔不同的字段。在本文中,我们将介绍parse命令的基本用法,以及它的一些亮点和案例。
158 0
Scrapy中的parse命令:灵活处理CSV数据的多功能工具
|
数据采集 数据可视化 应用服务中间件
Python爬虫:scrapy从项目创建到部署可视化定时任务运行
Python爬虫:scrapy从项目创建到部署可视化定时任务运行
601 0
Python爬虫:scrapy从项目创建到部署可视化定时任务运行
|
数据采集 前端开发 数据可视化
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
685 0
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
|
数据采集 Python
Python爬虫:关于scrapy、Gerapy等爬虫相关框架和工具
Python爬虫:关于scrapy、Gerapy等爬虫相关框架和工具
237 0
Python爬虫:关于scrapy、Gerapy等爬虫相关框架和工具
|
数据采集 数据可视化 Python
python爬虫:scrapy可视化管理工具spiderkeeper部署
python爬虫:scrapy可视化管理工具spiderkeeper部署
511 0
python爬虫:scrapy可视化管理工具spiderkeeper部署
|
存储 数据采集 缓存
《Learning Scrapy》(中文版)第7章 配置和管理
序言第1章 Scrapy介绍第2章 理解HTML和XPath第3章 爬虫基础 第4章 从Scrapy到移动应用第5章 快速构建爬虫第6章 Scrapinghub部署 第7章 配置和管理第8章 Scrapy编程第9章 使用Pipeline第10章 理解Scrapy的性能第11章(完) Scrapyd分布式抓取和实时分析 我们已经学过了用Scrapy写一个抓取网络信息的简单爬虫是多么容易。
1302 0
|
9天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
49 6
下一篇
无影云桌面