需要安装的库比较多,可以按照步骤,参看上图理解
环境准备
scrapy: https://github.com/scrapy/scrapy
scrapyd: https://github.com/scrapy/scrapyd
scrapyd-client: https://github.com/scrapy/scrapyd-client
SpiderKeeper: https://github.com/DormyMo/SpiderKeeper
安装
pip install scrapy scrapyd scrapyd-client spiderkeeper
部署项目
第一步,启动scrapyd
$ scrapyd
测试地址:http://localhost:6800/
关于scrapyd的部署安装参考:scrapy部署之scrapyd
第二步,启动SpiderKeeper
借用 SpiderKeeper 的 github 的指导(我翻译的):
命令行启动
$ spiderkeeper
选项:
spiderkeeper [options] Options: -h, --help 展示帮助信息并且退出 --host=HOST host, 默认:0.0.0.0 --port=PORT port, 默认:5000 --username=USERNAME 设置用户名 ,默认: admin --password=PASSWORD 设置密码 ,默认: admin --type=SERVER_TYPE 接受蜘蛛服务器类型, 默认: scrapyd --server=SERVERS 爬虫服务器, 默认: ['http://localhost:6800'] --database-url=DATABASE_URL SpiderKeeper 数据库,默认: sqlite:home/souche/SpiderKeeper.db --no-auth 不进行验证 -v, --verbose 日志级别 1
SpiderKeeper可视化地址: http://localhost:5000
第三步,部署项目
1、创建项目
2、使用 scrapyd-client 生成 egg 文件 (进入需要上传的scrapy项目目录)
$ scrapyd-deploy --build-egg output.egg
3、上传 egg 文件 (确保已经启动 scrapyd 服务)
4、 完成!开始享受吧
总结
看着比较多,其实就是执行了四行语句:
安装4个包
启动scrapyd
启动spiderkeeper
打包scrapy项目
错误及解决
如果提示端口占用就参考这个文章解决:
flask的端口占用问题