python爬虫:scrapy可视化管理工具spiderkeeper部署

简介: python爬虫:scrapy可视化管理工具spiderkeeper部署

image.png

需要安装的库比较多,可以按照步骤,参看上图理解


环境准备

scrapy: https://github.com/scrapy/scrapy

scrapyd: https://github.com/scrapy/scrapyd

scrapyd-client: https://github.com/scrapy/scrapyd-client

SpiderKeeper: https://github.com/DormyMo/SpiderKeeper


安装


pip install scrapy scrapyd scrapyd-client spiderkeeper

部署项目

第一步,启动scrapyd

$ scrapyd

测试地址:http://localhost:6800/


关于scrapyd的部署安装参考:scrapy部署之scrapyd


第二步,启动SpiderKeeper

借用 SpiderKeeper 的 github 的指导(我翻译的):

命令行启动


$ spiderkeeper

选项:


spiderkeeper [options]
Options:
  -h, --help            展示帮助信息并且退出
  --host=HOST           host, 默认:0.0.0.0
  --port=PORT           port, 默认:5000
  --username=USERNAME   设置用户名 ,默认: admin
  --password=PASSWORD   设置密码 ,默认: admin
  --type=SERVER_TYPE    接受蜘蛛服务器类型, 默认: scrapyd
  --server=SERVERS      爬虫服务器, 默认: ['http://localhost:6800']
  --database-url=DATABASE_URL
                        SpiderKeeper 数据库,默认: sqlite:home/souche/SpiderKeeper.db
  --no-auth             不进行验证
  -v, --verbose         日志级别
1

SpiderKeeper可视化地址: http://localhost:5000


第三步,部署项目

1、创建项目


2、使用 scrapyd-client 生成 egg 文件 (进入需要上传的scrapy项目目录)


$ scrapyd-deploy --build-egg output.egg

3、上传 egg 文件 (确保已经启动 scrapyd 服务)


4、 完成!开始享受吧


总结

看着比较多,其实就是执行了四行语句:


安装4个包

启动scrapyd

启动spiderkeeper

打包scrapy项目

错误及解决

如果提示端口占用就参考这个文章解决:


flask的端口占用问题

相关文章
|
3月前
|
存储 缓存 测试技术
理解Python装饰器:简化代码的强大工具
理解Python装饰器:简化代码的强大工具
|
4月前
|
程序员 测试技术 开发者
Python装饰器:简化代码的强大工具
Python装饰器:简化代码的强大工具
230 92
|
5月前
|
数据安全/隐私保护 Python
微信群成员导出工具, 微信群成员导出软件, 微信群管理工具软件【python】
这个工具提供了完整的微信群成员导出功能,包括登录微信、获取群列表、导出成员信息到Excel等功能
|
3月前
|
机器学习/深度学习 编解码 Python
Python图片上采样工具 - RealESRGANer
Real-ESRGAN基于深度学习实现图像超分辨率放大,有效改善传统PIL缩放的模糊问题。支持多种模型版本,推荐使用魔搭社区提供的预训练模型,适用于将小图高质量放大至大图,放大倍率越低效果越佳。
287 3
|
4月前
|
人工智能 自然语言处理 安全
Python构建MCP服务器:从工具封装到AI集成的全流程实践
MCP协议为AI提供标准化工具调用接口,助力模型高效操作现实世界。
869 1
|
3月前
|
算法 安全 数据安全/隐私保护
Python随机数函数全解析:5个核心工具的实战指南
Python的random模块不仅包含基础的随机数生成函数,还提供了如randint()、choice()、shuffle()和sample()等实用工具,适用于游戏开发、密码学、统计模拟等多个领域。本文深入解析这些函数的用法、底层原理及最佳实践,帮助开发者高效利用随机数,提升代码质量与安全性。
727 0
|
4月前
|
API 数据安全/隐私保护 Python
拼多多批量上架软件, 电商一键上货发布工具,python电商框架分享
多线程批量上传架构,支持并发处理商品数据 完整的拼多多API签名和token管理机制
|
4月前
|
安全 API 数据安全/隐私保护
|
4月前
|
Java API 数据安全/隐私保护
淘宝一键上货发布软件,淘宝批量发布上架工具, 淘宝批量上架脚本【python】
这个Python脚本实现了以下功能: 完整的淘宝API调用封装
|
4月前
|
机器人 数据安全/隐私保护 Python
淘宝批量发货发布工具, 淘宝批量上传商品软件, 淘宝批量上架软件【python】
使用Selenium实现自动化操作淘宝卖家后台 支持三种核心功能

推荐镜像

更多