Scrapy可视化管理管理工具总结

简介: Scrapy可视化管理管理工具总结

1、scrapyd

项目地址:https://github.com/scrapy/scrapyd


文档: https://scrapyd.readthedocs.io/


Scrapyd 是一个运行 Scrapy 爬虫程序的服务


pip install scrapyd
scrapyd  # 启动服务

环境测试: http://localhost:6800/

image.png


2、ScrapydAPI

项目地址:https://github.com/djm/python-scrapyd-api


一个 Scrapyd API 的python封装


pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI
scrapyd = ScrapydAPI('http://localhost:6800')

3、ScrapydArt

项目地址:https://github.com/dequinns/ScrapydArt


ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API


pip install scrapydart 
$ scrapydart  # 启动

web界面 http://localhost:6800

image.png


4、ScrapydWeb

项目地址:https://github.com/my8100/scrapydweb


功能特性:

Scrapyd 集群管理

Scrapy 日志分析

支持所有 Scrapyd API

web UI 支持 Basic Auth


pip install scrapydweb
$ scrapydweb -h    # 初始化
$ scrapydweb  # 启动

管理页面:http://127.0.0.1:5000

image.png



参考:

如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目


5、Gerapy

项目地址:https://github.com/Gerapy/Gerapy


一款分布式爬虫管理框架

控制爬虫运行,

查看爬虫状态,

查看爬取结果,

项目部署,

主机管理,

编写爬虫代码


pip3 install gerapy
$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

web界面: http://localhost:8000

image.png


参考:

scrapyd部署、使用Gerapy 分布式爬虫管理框架


6、SpiderKeeper

项目地址:https://github.com/DormyMo/SpiderKeeper

一个scrapyd的可视化工具


pip install spiderkeeper
$ spiderkeeper  # 启动

web ui : http://localhost:5000


image.png

7、SpiderAdmin

github: https://github.com/mouday/SpiderAdmin

pypi: https://pypi.org/project/spideradmin/


功能介绍

1、对Scrapyd 接口进行可视化封装,对Scrapy爬虫项目进行删除 和 查看


2、对爬虫设置定时任务,支持apscheduler 的3中方式和随机延时,共计4中方式

单次运行 date

周期运行 corn

间隔运行 interval

随机运行 random


3、基于Flask-BasicAuth 做了简单的权限校验


启动运行


$ pip3 install spideradmin
$ spideradmin       # 启动服务

访问:

http://127.0.0.1:5000/


image.png

8、Spider Admin Pro

Github: https://github.com/mouday/spider-admin-pro


Gitee: https://gitee.com/mouday/spider-admin-pro


Pypi: https://pypi.org/project/spider-admin-pro


Spider Admin Pro 是Spider Admin的升级版


简化了一些功能;

优化了前端界面,基于Vue的组件化开发;

优化了后端接口,对后端项目进行了目录划分;

整体代码利于升级维护。

目前仅对Python3进行了支持


运行启动


$ pip3 install spider-admin-pro
$ python3 -m spider_admin_pro.run

image.png


总结


image.png

image.png

相关文章
|
11月前
|
JSON 中间件 API
Scrapy中的parse命令:灵活处理CSV数据的多功能工具
Scrapy是一个用Python编写的开源框架,它可以快速地从网站上抓取数据。Scrapy提供了许多强大的功能,其中之一就是parse命令,它可以让你灵活地处理CSV数据。CSV(逗号分隔值)是一种常用的数据格式,它用逗号来分隔不同的字段。在本文中,我们将介绍parse命令的基本用法,以及它的一些亮点和案例。
119 0
Scrapy中的parse命令:灵活处理CSV数据的多功能工具
|
数据采集 前端开发 数据可视化
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
604 0
spider-admin-pro 一个集爬虫Scrapy+Scrapyd爬虫项目查看 和 爬虫任务定时调度的可视化管理工具
|
数据采集 Python
Python爬虫:关于scrapy、Gerapy等爬虫相关框架和工具
Python爬虫:关于scrapy、Gerapy等爬虫相关框架和工具
206 0
Python爬虫:关于scrapy、Gerapy等爬虫相关框架和工具
|
数据采集 数据可视化 Python
python爬虫:scrapy可视化管理工具spiderkeeper部署
python爬虫:scrapy可视化管理工具spiderkeeper部署
440 0
python爬虫:scrapy可视化管理工具spiderkeeper部署
|
1月前
|
数据采集 存储 数据处理
Scrapy:Python网络爬虫框架的利器
在当今信息时代,网络数据已成为企业和个人获取信息的重要途径。而Python网络爬虫框架Scrapy则成为了网络爬虫工程师的必备工具。本文将介绍Scrapy的概念与实践,以及其在数据采集和处理过程中的应用。
30 1
|
1月前
|
数据采集 调度 Python
Scrapy爬虫中合理使用time.sleep和Request
Scrapy爬虫中合理使用time.sleep和Request
|
1月前
|
数据采集 中间件 Python
Scrapy爬虫:利用代理服务器爬取热门网站数据
Scrapy爬虫:利用代理服务器爬取热门网站数据
|
18天前
|
数据采集 存储 中间件
Scrapy,作为一款强大的Python网络爬虫框架,凭借其高效、灵活、易扩展的特性,深受开发者的喜爱
【6月更文挑战第10天】Scrapy是Python的高效爬虫框架,以其异步处理、多线程及中间件机制提升爬取效率。它提供丰富组件和API,支持灵活的数据抓取、清洗、存储,可扩展到各种数据库。通过自定义组件,Scrapy能适应动态网页和应对反爬策略,同时与数据分析库集成进行复杂分析。但需注意遵守法律法规和道德规范,以合法合规的方式进行爬虫开发。随着技术发展,Scrapy在数据收集领域将持续发挥关键作用。
64 4
|
30天前
|
数据采集 存储 中间件
Python高效爬虫——scrapy介绍与使用
Scrapy是一个快速且高效的网页抓取框架,用于抓取网站并从中提取结构化数据。它可用于多种用途,从数据挖掘到监控和自动化测试。 相比于自己通过requests等模块开发爬虫,scrapy能极大的提高开发效率,包括且不限于以下原因: 1. 它是一个异步框架,并且能通过配置调节并发量,还可以针对域名或ip进行精准控制 2. 内置了xpath等提取器,方便提取结构化数据 3. 有爬虫中间件和下载中间件,可以轻松地添加、修改或删除请求和响应的处理逻辑,从而增强了框架的可扩展性 4. 通过管道方式存储数据,更加方便快捷的开发各种数据储存方式
|
13天前
|
数据采集 NoSQL MongoDB
使用多进程和 Scrapy 实现高效的 Amazon 爬虫系统
在这篇博客中,将展示如何使用多进程和 Scrapy 来构建一个高效的 Amazon 爬虫系统。通过多进程处理,提高爬虫的效率和稳定性,同时利用 Redis 进行请求调度和去重。