开发者社区> 青衫无名> 正文

scrapy爬取免费代理IP存储到数据库构建自有IP池

简介: 以抓取西刺代理网站的高匿IP并存储到mysql数据库为例 西刺网:http://www.xicidaili.com/nn/ 运行环境:scrapy1.0.3 python2.7.10 需要安装MySQLdb模块  pip install mysql-python spider的编写步骤:.
+关注继续查看

以抓取西刺代理网站的高匿IP并存储到mysql数据库为例

西刺网:http://www.xicidaili.com/nn/

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

运行环境:scrapy1.0.3 python2.7.10 需要安装MySQLdb模块 
pip install mysql-python

spider的编写步骤:

1、定义抓取的网站

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

2、定义需要抓取的链接640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

3、用xpath对网站内容进行解析640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

填写settings.py文件中的数据库用户名和密码,之后在mysql中导入proxy.sql文件,数据表名称及属性如下所示:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

运行scrapy:

scrapy crawl xici640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

不到一分钟即可抓取3000多代理ip,妈妈再也不用担心ip被封啦,本文源码下载地址:

http://pan.baidu.com/s/1c29kkMG,获取密码请在Python中文社区公众号底部回复代理二字。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=



原文发布时间为:2016-10-26

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Scrapy添加代理验证
Scrapy添加代理验证
22 0
Python之scrapy的post请求、日志和代理
Python之scrapy的post请求、日志和代理
82 0
Requests 和 Scrapy 添加动态IP代理
Requests 和 Scrapy 添加动态IP代理
143 0
新手教程 | Python Scrapy框架HTTP代理的配置与调试
做过python爬虫的都知道,HTTP代理的设置时要在发送请求前设置好,那HTTP代理的逻辑点在哪里呢?实际上,只需要在Scrapy 的项目结构中添加就好
125 0
Scrapy添加代理验证
Scrapy添加代理验证
20 0
Scrapy添加代理验证
Scrapy添加代理验证
44 0
scrapy自带文件下载器,实现多层级目录结构的存储
概scrapy既然是一款强大的爬虫框架,自然也实现了图片和文件的下载,FilesPipeline、ImagesPipeline分别是图片和文件的下载器,image也是文件的一种为什么还要单独提供一个image下载器?这是因为图片下载器还提供了一些额外方法:缩略图生成、图片过滤;今天就来介绍这两款特殊的下载器。
1202 0
Scrapy使用代理爬取网站
timg.jpg 前言 在我们平时使用爬虫程序采集数据时,往往会遇到,因采集速度过快导致的自己网络ip被目标网站封禁,这种封禁有时候是封几分钟,有时候是封一天,封的时间不等,但是这样会导致我们局域网内其他人也无法访问目标网站,最大的问题是我们无法进行数据采集。
1620 0
目标反爬虫怎么办?实践出真知-scrapy集成动态ip代理(以阿布云为例)
360截图20180712215548501.jpg 一、前言 在爬虫行当,每天都要面对目标反爬虫技术,我们想要拿到数据,就需要针对它们的反爬虫来制定绕过方法,比如它识别你的UserAgent,那你可能就需要伪造、它限制IP请求次数,你可能就需要限速或者改变ip、它用验证码来识别你是人是机,你就需要模拟人的操作并且正确填写它给你弹出的验证码等等。
2454 0
+关注
青衫无名
文章
问答
视频
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
阿里云数据库产品手册
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
相关实验场景
更多