以抓取西刺代理网站的高匿IP并存储到mysql数据库为例
西刺网:http://www.xicidaili.com/nn/
运行环境:scrapy1.0.3 python2.7.10 需要安装MySQLdb模块
pip install mysql-python
spider的编写步骤:
1、定义抓取的网站
填写settings.py文件中的数据库用户名和密码,之后在mysql中导入proxy.sql文件,数据表名称及属性如下所示:
http://pan.baidu.com/s/1c29kkMG,获取密码请在Python中文社区公众号底部回复代理二字。
原文发布时间为:2016-10-26
本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号