简介
基于numpy和bs4的豆瓣图书爬虫,可以分类爬取豆瓣读书300多万本图书信息,包括标题、作者、定价、页数、出版信息等
github地址:https://github.com/lanbing510/DouBanSpider
项目作者:lanbing510
1 可以爬下豆瓣读书标签下的所有图书
2 按评分排名依次存储
3 存储到Excel中,可方便大家筛选搜罗,比如筛选评价人数>1000的高分书籍;可依据不同的主题存储到Excel不同的Sheet
4 采用User Agent伪装为浏览器进行爬取,并加入随机延时来更好的模仿浏览器行为,避免爬虫被封
步骤
1、安装pyenv后激活环境,并clone代码到本地环境,可参看Python中文社区知乎专栏文章:基于pyenv和virtualenv搭建python多版本虚拟环境
4、部署好环境,安装必需的模块后即可用python命令直接执行文件
python doubanSpider.py
5、查看抓取的内容
原文发布时间为:2016-10-18
本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号