在信息技术飞速发展的今天,通过部署隧道代理,可以实现对数据流的加密隧道化,从而增强网络通讯的整体安全性,也可以0代码接入大量使用隧道代理IP,极大简化数据采集过程中的使用代理IP的过程。
不过隧道代理技术相对而言还是会更难一些,成本也更高,所以目前市面上的代理IP服务提供商有这项服务的不多,所以今天,我们就来讨论一下,要如何部署隧道代理,以便我们日常使用。
前期准备
准备一波可以用的代理IP,免费的不建议啦,2024了,不会还有人去用免费的吧。
随便挑一家量大实惠的代理IP服务提供商都行啊:
随便挑,OK?你自己看上的就行。
老规矩了,安装requests库:
pip install requests
接着就进入我们的重点:搭建隧道
如前面,我用的是青果网络的代理IP,具体你们可以替换成你们自己买的API地址。
import requests import time proxy_api_url = 'https://api.qg.net.com/getip?appid=YOUR_ID&appkey=YOUR_KEY&num=1&proxy_type=http' proxy_server = 'PROXY_IP' proxy_port = PROXY_PORT target_url = '目标网站' def get_and_use_proxy(): while True: try: response = requests.get(proxy_api_url) proxy_json = response.json() proxy = proxy_json[0]['proxy'] response = requests.get(target_url, proxies={'http': f'http://{proxy_server}:{proxy_port}'}) if response.status_code == 200: print(response.text) else: print(f'Request failed with status code: {response.status_code}') except Exception as e: print(f'Error: {str(e)}') time.sleep(10) proxy_thread = threading.Thread(target=get_and_use_proxy) proxy_thread.start()
同时,记得用 Redis 的 Hash 这个数据结构周期性访问url,拉取当前最新可用的HTTP代理。
部分代码如下:
import yaml import time import json import redis import datetime import requests class ProxyManager: def __init__(self): self.config = self.read_config() self.redis_config = self.config['redis'] self.client = redis.Redis(host=self.redis_config['host'], password=self.redis_config['password'], port=self.redis_config['port']) self.instance_dict = {} def run(self): while True: live_ips = self.read_ip() pool_ips = [x.decode() for x in self.client.hgetall(self.redis_config['key'])] self.delete_ip(live_ips, pool_ips) self.add_new_ips(live_ips, pool_ips) time.sleep(40) if __name__ == '__main__': manager = ProxyManager() manager.run()
我们最好确保这波从url拉下来的代理IP是有效的,可以自己设置程序检查筛出,不具体说了,过。
接下来就是设置代理IP自动转发这一过程,我们可以使用 OpenResty 帮我们实现。
部分代码展示:
worker_processes 16; error_log /usr/local/openresty/nginx/logs/error.log; events { worker_connections 1024; } stream { log_format tcp_proxy '$remote_addr [$time_local] ' '$protocol $status $bytes_sent $bytes_received ' '$session_time "$upstream_addr" ' '"$upstream_bytes_sent" "$upstream_bytes_received" "$upstream_connect_time"'; access_log /usr/local/openresty/nginx/logs/access.log tcp_proxy; open_log_file_cache off; upstream backend{ server 127.0.0.2:1101; balancer_by_lua_block { local balancer = require "ngx.balancer" local host = "" local port = 0 host = ngx.ctx.proxy_host port = ngx.ctx.proxy_port local ok, err = balancer.set_current_peer(host, port) if not ok then ngx.log(ngx.ERR, "failed to set the peer: ", err) end } } server { preread_by_lua_block{ local redis = require("resty.redis") local redis_instance = redis:new() redis_instance:set_timeout(3000) local rhost = "123.45.67.89" local rport = 6739 local rpass = "abcdefg" local rkey = "proxy:pool" local ok, err = redis_instance:connect(rhost, rport) ngx.log(ngx.ERR, "1111111 ", ok, " ", err) } listen 0.0.0.0:9976; proxy_connect_timeout 3s; proxy_timeout 10s; proxy_pass backend; } }
接着我们用Docker 来启动它,再执行命令和运行就完事了。
隧道代理总体搭建过程就是如此了。当然实际应用中,我们大部分还是会更倾向于购买代理IP服务提供商的隧道代理。限于大规模隧道代理技术问题,目前市面上有这项服务的提供商还不多。我现在使用的是青果网络家的隧道代理,使用下来总体而言还是可以的:
还会提供数据看板:
看了很多家隧道代理的价格以后,不得不说,不是阿布云快代理这种隧道代理IP服务提供商买不起,而是青果网络这种更具有性价比。
说一嘴,他们家还有一个隧道代理的隐藏入口,就这么水灵灵的放在了短效代理这边:
看着还挺实在的,有需要的朋友们可以自己去了解去测试啦。