以抓取西刺代理网站的高匿IP并存储到mysql数据库为例
西刺网:http://www.xicidaili.com/nn/

运行环境:scrapy1.0.3 python2.7.10 需要安装MySQLdb模块
pip install mysql-python
spider的编写步骤:
1、定义抓取的网站

2、定义需要抓取的链接
3、用xpath对网站内容进行解析
填写settings.py文件中的数据库用户名和密码,之后在mysql中导入proxy.sql文件,数据表名称及属性如下所示:

运行scrapy:
scrapy crawl xici
不到一分钟即可抓取3000多代理ip,妈妈再也不用担心ip被封啦,本文源码下载地址:
http://pan.baidu.com/s/1c29kkMG,获取密码请在Python中文社区公众号底部回复代理二字。

原文发布时间为:2016-10-26
本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号