用Python爬虫抓取免费代理IP

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介:

不知道大家有没有遇到过“访问频率太高”这样的网站提示,我们需要等待一段时间或者输入一个验证码才能解封,但这样的情况之后还是会出现。出现这个现象的原因就是我们所要爬取的网页采取了反爬虫的措施,比如当某个ip单位时间请求网页次数过多时,服务器会拒绝服务,这种情况就是由于访问频率引起的封ip,这种情况靠解封不能很好的解决,所以我们就想到了伪装本机ip去请求网页,也就是我们今天要讲的使用代理ip。

目前网上有许多代理ip,有免费的也有付费的,例如西刺代理等,免费的虽然不用花钱但有效的代理很少且不稳定,付费的可能会好一点,不过今天我只爬取免费的代理并将检测是否可用,将可用ip存入MongoDB,方便下次取出。

运行平台:Windows

Python版本:Python3.6

IDE: Sublime Text

其他:Chrome浏览器

简述流程为:

步骤1:了解requests代理如何使用

步骤2:从代理网页爬取到ip和端口

步骤3:检测爬取到的ip是否可用

步骤4:将爬取的可用代理存入MongoDB

步骤5:从存入可用ip的数据库里随机抽取一个ip,测试成功后返回

对于requests来说,代理的设置比较简单,只需要传入proxies参数即可。

不过需要注意的是,这里我是在本机安装了抓包工具Fiddler,并用它在本地端口8888创建了一个HTTP代理服务(用Chrome插件SwitchyOmega),即代理服务为:127.0.0.1:8888,我们只要设置好这个代理,就可以成功将本机ip切换成代理软件连接的服务器ip了。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy
 
  1. import requests

  2. proxy = '127.0.0.1:8888'

  3. proxies = {

  4. 'http':'http://' + proxy,

  5. 'https':'http://' + proxy

  6. }

  7. try:

  8. response = requests.get('http://httpbin.org/get',proxies=proxies)

  9. print(response.text)

  10. except requests.exceptions.ConnectionError as e:

  11. print('Error',e.args)

这里我是用来http://httpbin.org/get作为测试网站,我们访问该网页可以得到请求的有关信息,其中origin字段就是客户端ip,我们可以根据返回的结果判断代理是否成功。返回结果如下:

 
  1. {

  2. "args":{},

  3. "headers":{

  4. "Accept":"*/*",

  5. "Accept-Encoding":"gzip, deflate",

  6. "Connection":"close",

  7. "Host":"httpbin.org",

  8. "User-Agent":"python-requests/2.18.4"

  9. },

  10. "origin":"xx.xxx.xxx.xxx",

  11. "url":"http://httpbin.org/get"

  12. }

接下来我们便开始爬取代理IP,首先我们打开Chrome浏览器查看网页,并找到ip和端口元素的信息。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

可以看到,代理IP以表格存储ip地址及其相关信息,所以我们用BeautifulSoup提取时很方便便能提取出相关信息,但是我们需要注意的是,爬取的ip很有可能出现重复的现象,尤其是我们同时爬取多个代理网页又存储到同一数组中时,所以我们可以使用集合来去除重复的ip。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

将要爬取页数的ip爬取好后存入数组,然后再对其中的ip逐一测试。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

这里就用到了上面提到的requests设置代理的方法,我们使用http://httpbin.org/ip作为测试网站,它可以直接返回我们的ip地址,测试通过后再存入MomgoDB数据库。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

连接数据库然后指定数据库和集合,再将数据插入就OK了。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

最后运行查看一下结果吧

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

运行了一段时间后,难得看到一连三个测试通过,赶紧截图保存一下,事实上是,毕竟是免费代理,有效的还是很少的,并且存活时间确实很短,不过,爬取的量大,还是能找到可用的,我们只是用作练习的话,还是勉强够用的。现在看看数据库里存储的吧。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

因为爬取的页数不多,加上有效ip也少,再加上我没怎么爬,所以现在数据库里的ip并不多,不过也算是将这些ip给存了下来。现在就来看看怎么随机取出来吧。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

由于担心放入数据库一段时间后ip会失效,所以取出前我重新进行了一次测试,如果成功再返回ip,不成功的话就直接将其移出数据库。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

这样我们需要使用代理的时候,就能通过数据库随时取出来了。

总的代码如下:

 
  1. import random

  2. import requests

  3. import time

  4. import pymongo

  5. from bs4 import BeautifulSoup

  6. # 爬取代理的URL地址,选择的是西刺代理

  7. url_ip = "http://www.xicidaili.com/nt/"

  8. # 设定等待时间

  9. set_timeout = 5

  10. # 爬取代理的页数,2表示爬取2页的ip地址

  11. num = 2

  12. # 代理的使用次数

  13. count_time = 5

  14. # 构造headers

  15. headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'}

  16. # 测试ip的URL

  17. url_for_test = 'http://httpbin.org/ip'

  18. def scrawl_xici_ip(num):

  19. '''

  20. 爬取代理ip地址

  21. '''

  22. ip_list = []

  23. for num_page in range(1,num):

  24. url = url_ip + str(num_page)

  25. response = requests.get(url,headers=headers)

  26. if response.status_code == 200:

  27. content = response.text

  28. soup = BeautifulSoup(content,'lxml')

  29. trs = soup.find_all('tr')

  30. for i in range(1,len(trs)):

  31. tr = trs[i]

  32. tds = tr.find_all('td')

  33. ip_item = tds[1].text + ':' + tds[2].text

  34. # print(ip_item)

  35. ip_list.append(ip_item)

  36. ip_set = set(ip_list) # 去掉可能重复的ip

  37. ip_list = list(ip_set)

  38. time.sleep(count_time) # 等待5秒

  39. return ip_list

  40. def ip_test(url_for_test,ip_info):

  41. '''

  42. 测试爬取到的ip,测试成功则存入MongoDB

  43. '''

  44. for ip_for_test in ip_info:

  45. # 设置代理

  46. proxies = {

  47. 'http': 'http://' + ip_for_test,

  48. 'https': 'http://' + ip_for_test,

  49. }

  50. print(proxies)

  51. try:

  52. response = requests.get(url_for_test,headers=headers,proxies=proxies,timeout=10)

  53. if response.status_code == 200:

  54. ip = {'ip':ip_for_test}

  55. print(response.text)

  56. print('测试通过')

  57. write_to_MongoDB(ip)

  58. except Exception as e:

  59. print(e)

  60. continue

  61. def write_to_MongoDB(proxies):

  62. '''

  63. 将测试通过的ip存入MongoDB

  64. '''

  65. client = pymongo.MongoClient(host='localhost',port=27017)

  66. db = client.PROXY

  67. collection = db.proxies

  68. result = collection.insert(proxies)

  69. print(result)

  70. print('存储MongoDB成功')

  71. def get_random_ip():

  72. '''

  73. 随机取出一个ip

  74. '''

  75. client = pymongo.MongoClient(host='localhost',port=27017)

  76. db = client.PROXY

  77. collection = db.proxies

  78. items = collection.find()

  79. length = items.count()

  80. ind = random.randint(0,length-1)

  81. useful_proxy = items[ind]['ip'].replace('\n','')

  82. proxy = {

  83. 'http': 'http://' + useful_proxy,

  84. 'https': 'http://' + useful_proxy,

  85. }

  86. response = requests.get(url_for_test,headers=headers,proxies=proxy,timeout=10)

  87. if response.status_code == 200:

  88. return useful_proxy

  89. else:

  90. print('此{ip}已失效'.format(useful_proxy))

  91. collection.remove(useful_proxy)

  92. print('已经从MongoDB移除')

  93. get_random_ip()

  94. def main():

  95. ip_info = []

  96. ip_info = scrawl_xici_ip(2)

  97. sucess_proxy = ip_test(url_for_test,ip_info)

  98. finally_ip = get_random_ip()

  99. print('取出的ip为:' + finally_ip)

  100. if __name__ == '__main__':

  101. main()



原文发布时间为:2018-06-27
本文作者:HDMI
本文来自云栖社区合作伙伴“ Python中文社区”,了解相关信息可以关注“ Python中文社区”。
相关实践学习
MongoDB数据库入门
MongoDB数据库入门实验。
快速掌握 MongoDB 数据库
本课程主要讲解MongoDB数据库的基本知识,包括MongoDB数据库的安装、配置、服务的启动、数据的CRUD操作函数使用、MongoDB索引的使用(唯一索引、地理索引、过期索引、全文索引等)、MapReduce操作实现、用户管理、Java对MongoDB的操作支持(基于2.x驱动与3.x驱动的完全讲解)。 通过学习此课程,读者将具备MongoDB数据库的开发能力,并且能够使用MongoDB进行项目开发。   相关的阿里云产品:云数据库 MongoDB版 云数据库MongoDB版支持ReplicaSet和Sharding两种部署架构,具备安全审计,时间点备份等多项企业能力。在互联网、物联网、游戏、金融等领域被广泛采用。 云数据库MongoDB版(ApsaraDB for MongoDB)完全兼容MongoDB协议,基于飞天分布式系统和高可靠存储引擎,提供多节点高可用架构、弹性扩容、容灾、备份回滚、性能优化等解决方案。 产品详情: https://www.aliyun.com/product/mongodb
相关文章
|
14天前
|
数据采集 存储 C#
C# 爬虫技术:京东视频内容抓取的实战案例分析
C# 爬虫技术:京东视频内容抓取的实战案例分析
|
11天前
|
数据采集 JavaScript 前端开发
构建简易Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字信息的时代,数据抓取成为获取网络资源的重要手段。本文将引导你通过Python编写一个简单的网页爬虫,从零基础到实现数据抓取的全过程。我们将一起探索如何利用Python的requests库进行网络请求,使用BeautifulSoup库解析HTML文档,并最终提取出有价值的数据。无论你是编程新手还是有一定基础的开发者,这篇文章都将为你打开数据抓取的大门。
|
16天前
|
数据采集
爬虫抓取数据过程中代理IP频繁掉线:以Kookeey为例的解决方案
在数据抓取过程中,代理IP不可或缺,但其频繁掉线问题严重影响效率。本文以Kookeey为例,探讨解决之道:1)深入理解掉线原因,审慎选择稳定的服务商; 2)保持代理IP更新并合理配置使用参数; 3)在程序中集成错误处理与重试逻辑; 4)必要时升级至更优质的服务; 5)主动与服务商沟通寻求支持; 6)探索替代抓取策略,如调整抓取节奏或采用分布式架构。这些措施有助于显著提升抓取成功率及稳定性。
|
11天前
|
数据采集 JavaScript 前端开发
构建你的第一个Python爬虫:抓取网页数据入门指南
【8月更文挑战第31天】在数字时代,数据是新的石油。本文将引导初学者通过简单的步骤,使用Python编程语言创建一个基础的网络爬虫程序。我们将探索如何从网络上提取信息,并理解背后的原理。无论你是编程新手还是想要扩展你的技术工具箱,这篇文章都将为你提供一条清晰的道路,让你学会编写能够自动获取网络数据的脚本。准备好开始你的网络数据抓取之旅了吗?让我们现在就开始吧!
|
12天前
|
数据采集 JavaScript 前端开发
Python 爬虫实战:抓取和解析网页数据
【8月更文挑战第31天】本文将引导你通过Python编写一个简单的网络爬虫,从网页中抓取并解析数据。我们将使用requests库获取网页内容,然后利用BeautifulSoup进行解析。通过本教程,你不仅能够学习到如何自动化地从网站收集信息,还能理解数据处理的基本概念。无论你是编程新手还是希望扩展你的技术工具箱,这篇文章都将为你提供有价值的见解。
|
11天前
|
数据采集 存储 JavaScript
构建你的首个Python网络爬虫:抓取、解析与存储数据
【8月更文挑战第31天】在数字时代的浪潮中,数据成为了新的石油。了解如何从互联网的海洋中提取有价值的信息,是每个技术爱好者的必备技能。本文将引导你通过Python编程语言,利用其强大的库支持,一步步构建出你自己的网络爬虫。我们将探索网页请求、内容解析和数据存储等关键环节,并附上代码示例,让你轻松入门网络数据采集的世界。
|
1月前
|
数据采集 XML 前端开发
Python爬虫实战:利用代理IP爬取百度翻译
Python 爬虫实战:利用代理 IP 爬取百度翻译
102 2
|
4月前
|
Python
python代理ip关于设置proxies的问题
python代理ip关于设置proxies的问题
|
4月前
|
存储 API Python
python之代理ip的配置与调试
python之代理ip的配置与调试
|
4月前
|
存储 关系型数据库 MySQL
Python搭建代理IP池实现存储IP的方法
Python搭建代理IP池实现存储IP的方法