Python——简易代理池

本文涉及的产品
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
可观测可视化 Grafana 版,10个用户账号 1个月
简介: Python——简易代理池

01 实现背景

免费代理IP网站:https://www.xicidaili.com/wt/1,我们爬取的IP就来源于该网站下的免费代理IP信息

requests模块,用于http形式请求访问网页

BeautifulSoup模块,用于解析获取到的网页内容

02 实现目标

利用Python代码实现爬取可用代理IP,并将爬取到的IP地址载入到本地文件,方便后期使用


03 注意事项

1、为防止网站可能存在的简单反爬机制,我们简单添加headers信息,尝试绕过反爬

2、为保证爬取到的代理IP的可用性,我们使用该代理IP尝试访问百度,若访问成功即写入本地文件



04 实现代码



import requests
from  bs4  import BeautifulSoup
from threading import Thread

headers = {
   
   
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

def get_ip():
    for page in range(1,100):
        resp = requests.get('https://www.xicidaili.com/wt/{}'.format(page),headers=headers)
        soup = BeautifulSoup(resp.text,'lxml')
        dates = soup.select('tr')
        for i in range(1,50):
            date = dates[i]
            date_detail = BeautifulSoup(str(date),'lxml')
            date_text = date_detail.select('td')
            IP = date_text[1].text
            Port =date_text[2].text
            Address = date_text[3].text
            Protocol = date_text[5].text
            print(f'{Protocol.lower()}://{IP}:{Port}\t{Address}')
            with open('get_ip.txt',mode ='a+') as file:
                file.write(f'{Protocol.lower()}://{IP}:{Port}\t{Address}\n')
            ip_judge = f'{Protocol.lower()}://{IP}:{Port}'
            proxy_list={
   
   }
            proxy_list[Protocol.lower()] = ip_judge
            resp_judge = requests.get(url = 'https://www.baidu.com',headers=headers,proxies=proxy_list)
            if resp_judge.status_code == 200:
                with open('get_ip.txt',mode ='a+') as file:
                    file.write(f'{proxy_list}\n')
            else:
                print(f'This proxy is failed:{proxy_list}')

get_ip()



05 实现效果

image.png



image.png

目录
相关文章
|
2天前
|
监控 测试技术 持续交付
Python自动化测试代理程序可用性
总之,通过编写测试用例、自动化测试和设置监控系统,您可以确保Python自动化测试代理程序的可用性,并及时发现和解决问题。这有助于提供更可靠和高性能的代理服务。
17 4
|
2天前
|
数据采集 定位技术 Python
Python爬虫IP代理技巧,让你不再为IP封禁烦恼了! 
本文介绍了Python爬虫应对IP封禁的策略,包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率,降低被封禁风险。
|
2天前
|
数据挖掘 API 数据安全/隐私保护
python请求模块requests如何添加代理ip
python请求模块requests如何添加代理ip
|
2天前
|
存储 数据库 Python
使用Python编写代理IP自动切换技巧
使用Python编写代理IP自动切换技巧
|
2天前
|
存储 关系型数据库 MySQL
Python搭建代理IP池实现存储IP的方法
Python搭建代理IP池实现存储IP的方法
|
2天前
|
Python
Python动态IP代理防止被封的方法
Python动态IP代理防止被封的方法
|
2天前
|
存储 API Python
python之代理ip的配置与调试
python之代理ip的配置与调试
|
2天前
|
Python
python代理ip关于设置proxies的问题
python代理ip关于设置proxies的问题
|
2天前
|
数据安全/隐私保护 Python
【Python】Python使用代理IP的实现
【Python】Python使用代理IP的实现
|
2天前
|
缓存 大数据 Python
python利用代理IP分析大数据
python利用代理IP分析大数据