开发者社区> 青衫无名> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

scrapy爬取免费代理IP存储到数据库构建自有IP池

简介: 以抓取西刺代理网站的高匿IP并存储到mysql数据库为例 西刺网:http://www.xicidaili.com/nn/ 运行环境:scrapy1.0.3 python2.7.10 需要安装MySQLdb模块  pip install mysql-python spider的编写步骤:.
+关注继续查看

以抓取西刺代理网站的高匿IP并存储到mysql数据库为例

西刺网:http://www.xicidaili.com/nn/

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

运行环境:scrapy1.0.3 python2.7.10 需要安装MySQLdb模块 
pip install mysql-python

spider的编写步骤:

1、定义抓取的网站

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

2、定义需要抓取的链接640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

3、用xpath对网站内容进行解析640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

填写settings.py文件中的数据库用户名和密码,之后在mysql中导入proxy.sql文件,数据表名称及属性如下所示:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

运行scrapy:

scrapy crawl xici640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

不到一分钟即可抓取3000多代理ip,妈妈再也不用担心ip被封啦,本文源码下载地址:

http://pan.baidu.com/s/1c29kkMG,获取密码请在Python中文社区公众号底部回复代理二字。

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=



原文发布时间为:2016-10-26

本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
基于数据库形式构建动态网关|学习笔记
快速学习基于数据库形式构建动态网关
0 0
存量应用服务的访问方式 | 学习笔记
简介:快速学习存量应用服务的访问方式
0 0
Python编程:搭建一个爬虫代理池
Python编程:搭建一个爬虫代理池
0 0
内网多级代理服务端工具 Stowaway
towaway是一个利用go语言编写、专为渗透测试工作者制作的多级代理工具 用户可使用此程序将外部流量通过多个节点代理至内网,突破内网访问限制,构造树状节点网络,并轻松实现管理功能 PS:谢谢大家的star,同时欢迎大家使用后提出问题&&Bug 😘。
0 0
IP地理位置库开通服务解析
IP地理位置库是云解析DNS下的子产品服务,该服务为用户提供免费的页面在线查询IP地理位置功能,但是若需要通过API接口方式查询IP地址地理定位信息,则需要开通相关付费服务,本文主要介绍如何开通付费产品使用API来查询IP地址地理位置信息。
92 0
从零开始构建自己的爬虫代理IP数据库并定期检验IP有效性
从零开始构建自己的代理IP池; 根据代理IP网址抓取新的代理IP; 对历史代理IP有效性验证; python实现
1097 0
代理IP爬取,计算,发放自动化系统
IoC Python端 MySQL端 PHP端 怎么使用 这学期有一门课叫《物联网与云计算》,于是我就做了一个大作业,实现的是对代理IP的爬取,计算推荐,发放给用户等任务的的自动化系统。
775 0
+关注
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
云解析DNS如何实现流量容灾部署
立即下载
阿里云数据库案例集下载
立即下载
ECS块储存产品全面解析
立即下载