python爬虫:scrapy可视化管理工具spiderkeeper部署

简介: python爬虫:scrapy可视化管理工具spiderkeeper部署

image.png

需要安装的库比较多,可以按照步骤,参看上图理解


环境准备

scrapy: https://github.com/scrapy/scrapy

scrapyd: https://github.com/scrapy/scrapyd

scrapyd-client: https://github.com/scrapy/scrapyd-client

SpiderKeeper: https://github.com/DormyMo/SpiderKeeper


安装


pip install scrapy scrapyd scrapyd-client spiderkeeper

部署项目

第一步,启动scrapyd

$ scrapyd

测试地址:http://localhost:6800/


关于scrapyd的部署安装参考:scrapy部署之scrapyd


第二步,启动SpiderKeeper

借用 SpiderKeeper 的 github 的指导(我翻译的):

命令行启动


$ spiderkeeper

选项:


spiderkeeper [options]
Options:
  -h, --help            展示帮助信息并且退出
  --host=HOST           host, 默认:0.0.0.0
  --port=PORT           port, 默认:5000
  --username=USERNAME   设置用户名 ,默认: admin
  --password=PASSWORD   设置密码 ,默认: admin
  --type=SERVER_TYPE    接受蜘蛛服务器类型, 默认: scrapyd
  --server=SERVERS      爬虫服务器, 默认: ['http://localhost:6800']
  --database-url=DATABASE_URL
                        SpiderKeeper 数据库,默认: sqlite:home/souche/SpiderKeeper.db
  --no-auth             不进行验证
  -v, --verbose         日志级别
1

SpiderKeeper可视化地址: http://localhost:5000


第三步,部署项目

1、创建项目


2、使用 scrapyd-client 生成 egg 文件 (进入需要上传的scrapy项目目录)


$ scrapyd-deploy --build-egg output.egg

3、上传 egg 文件 (确保已经启动 scrapyd 服务)


4、 完成!开始享受吧


总结

看着比较多,其实就是执行了四行语句:


安装4个包

启动scrapyd

启动spiderkeeper

打包scrapy项目

错误及解决

如果提示端口占用就参考这个文章解决:


flask的端口占用问题

相关文章
|
1月前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
108 6
|
25天前
|
数据采集 存储 监控
Java爬虫:数据采集的强大工具
在数据驱动的时代,Java爬虫技术凭借其强大的功能和灵活性,成为企业获取市场信息、用户行为及竞争情报的关键工具。本文详细介绍了Java爬虫的工作原理、应用场景、构建方法及其重要性,强调了在合法合规的前提下,如何有效利用Java爬虫技术为企业决策提供支持。
|
1月前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
1月前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
79 4
|
1月前
|
数据采集 中间件 API
在Scrapy爬虫中应用Crawlera进行反爬虫策略
在Scrapy爬虫中应用Crawlera进行反爬虫策略
|
1月前
|
存储 数据可视化 Python
使用Python实现个人财务管理工具
本文介绍如何使用Python实现一个简单的个人财务管理工具,包括记录支出和收入、生成财务报告和数据可视化等功能。通过命令行界面输入数据,计算总支出、总收入和净收入,并使用Matplotlib库进行数据可视化。
|
2月前
|
数据采集 Web App开发 数据可视化
Python爬虫教程:Selenium可视化爬虫的快速入门
Python爬虫教程:Selenium可视化爬虫的快速入门
|
2月前
|
数据采集 JavaScript 前端开发
JavaScript逆向爬虫——使用Python模拟执行JavaScript
JavaScript逆向爬虫——使用Python模拟执行JavaScript
43 2
|
2月前
|
消息中间件 数据采集 数据库
小说爬虫-03 爬取章节的详细内容并保存 将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite
小说爬虫-03 爬取章节的详细内容并保存 将章节URL推送至RabbitMQ Scrapy消费MQ 对数据进行爬取后写入SQLite
35 1
|
2月前
|
机器学习/深度学习 Unix 开发者
python的环境管理工具有哪些
python的环境管理工具有哪些
31 0