如何获取临时 IP 进行爬虫学习 ?

简介:

自己在家里学习爬虫的时候 ,遇到封 IP 怎么办呢 ?网上买 IP 又贵 ,用免费代理质量又不好 。其实 ,家中自用的宽带如果可以进行拨号的话 ,我们是可以直接用 python 来控制路由器的 。将路由器断开 ,再重新连接下 IP 不就变了吗 ,非常方便 ,而且 IP 质量很高 ,都能直接使用 。

我就以我自己家里面的路由器来做个示范 。(完整代码见留言区置顶留言 。)

需要的工具:
requests ,json ,time 库
chrome 浏览器
产品型号 :TL-WDR6500 千兆版(其他用相同系统的也可)

首先我们来看一下 tplink 的登陆界面 ,清爽的界面 ,只有一个登陆密码 。

ed943cfc438b0aaae6cebcebfbf8f1ec6b68df2a

首先进行分析 ,打开chrome ,F12 查看 network ,第一个就是我们需要分析的 。

3cc5059792067ce2ce0e89ca8210eb7be0f24f4e

一个 post 请求 ,里面提交的参数都在最下面了 ,password 加密过了 ,因为我们是自己用就不研究加密算法了 ,直接把加密后的密码拿下来提交就好了 headers 全部复制下来 ,于是有了下面的代码 。


headers = {
'Accept':'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'Connection':'keep-alive',
'Content-Length':'54',
'Content-Type':'application/json; charset=UTF-8',
'Host':'192.168.1.1',
'Origin':'http://192.168.1.1',
'Referer':'http://192.168.1.1/',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
'X-Requested-With':'XMLHttpRequest'
}
def login():
url_login = 'http://192.168.1.1/'
data = json.dumps({"method":"do","login":{"password":LOGIN_PASSWORD}})
return requests.post(url_login, data=data, headers=headers)

我们用 requests 库来提交数据 ,方便简单 ,这里的 LOGIN_PASSWORD 就是我们加密后的代码 ,后面我们一起将这些设置的常量放到一个 settings 文件中 。然后我们通过这段代码来验证是否登陆成功 ,因为返回的 response 如果成功为 {"stok":"92830c5f504fed863705f1c4669bf1f1","error_code":0} 通过判断 error_code 来判断是否登陆成功前面的 eval_r(now) 显示一下当前时间 。


r = login()
if json.loads(r.text).get('error_code')==0:
token = json.loads(r.text).get('stok')
url_cmd = 'http://192.168.1.1/stok='+token+'/ds'
print(eval(now)+': login success')

后面进行请求断网重连(因为路由器断网之后会自动重连 ,我们只需要检测一下 ,在重连未成功的时候在进行连接请求就好了)。继续 F12 network 选项 ,找到那个和其他 ds 不一样的 ,查看得到以下 :

31823f76f8b6dda2ebcb94e2144da91a8e4a0231

我们继续模拟post请求就好啦~构造一个disconnect函数~


def disconnect():
data = json.dumps({"network":{"change_wan_status":{"proto":"pppoe","operate":"disconnect"}},"method":"do"})
response = requests.post(url_cmd,data=data,headers=headers)
return response

好到这部分基本差不多了 ,我们再整理完善一下 ,加一个测试 ,再加一个如果路由器没有自动重连的时候我们进行拨号联网 。最后把设置的东西放到 settings 文件中就 ok 啦 。在测试之前延时了 10 s ,因为拨号需要时间嘛 。

6600bfee334ae57f11ecf760c5628f9764ac9d90

好了 ,到这里就结束了 。测试一下 。

787fea69f53898ea9873b5a7b5e02b5830c17ad3

PS :

这里有个小坑 ,每一次的url_cmd都是不同的 。我们可以从登陆后的页面内拿到 ,设置一个全局变量即可 。这个值在登陆后的 response 中的 stok 内 ,拿到这个值我们就可以构造出这个url_cmd ,最后main代码如下:


def main():
global url_cmd
now = "time.strftime('%H:%M:%S',time.localtime(time.time()))"
r = login()
if json.loads(r.text).get('error_code')==0:
token = json.loads(r.text).get('stok')
url_cmd = 'http://192.168.1.1/stok='+token+'/ds'
print(eval(now)+': login success')
else:
print(eval(now)+': login failed')
return None
response = disconnect()
if json.loads(response.text).get('error_code')==0:
print(eval(now)+': disconnect success')
else:
print(eval(now)+': disconnect failed')
time.sleep(10)
for i in range(TRY_TIMES+1):
if test():
print(eval(now)+': success to connect to network')
break
else:
print(eval(now)+': faile to connect to network')
reconnect()

其他款路由器应该也差不多,还有操作之前需要咨询网络运营商开通拨号。最后,我们再加上一个显示当前IP的功能,直接调用了一个网上的api,一句话就ok。

new_ip = json.loads(requests.get('http://api.k780.com/?app=ip.local&appkey=10003&sign=b59bc3ef6191eb9f747dd4e83c99f2a4&format=json').text)['result']['ip']

最后看一下效果:

6fb589cdedc4c0f89ecf8709d3c35d23ae19735e

原文发布时间为:2018-09-8本文作者:Blight本文来自云栖社区合作伙伴“ 小詹学Python”,了解相关信息可以关注“ 小詹学Python”。
相关文章
|
1月前
|
数据采集 运维 监控
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
构建企业级Selenium爬虫:基于隧道代理的IP管理架构
|
1月前
|
数据采集 消息中间件 NoSQL
分布式爬虫的全局请求间隔协调与IP轮换策略
分布式爬虫的全局请求间隔协调与IP轮换策略
|
5月前
|
数据采集
Haskell编程中,利用HTTP爬虫实现IP抓取
以上就是利用Haskell编写IP抓取爬虫的详细步骤。希望这篇文章的演示对于理解在Haskell这种函数式编程语言中如何实现网络爬虫有所帮助,而其中的网络访问、标签解析和列表处理等技术在许多其他的问题中都有广泛的应用。
107 26
|
3月前
|
数据采集 机器学习/深度学习 边缘计算
Python爬虫动态IP代理报错全解析:从问题定位到实战优化
本文详解爬虫代理设置常见报错场景及解决方案,涵盖IP失效、403封禁、性能瓶颈等问题,提供动态IP代理的12种核心处理方案及完整代码实现,助力提升爬虫系统稳定性。
226 0
|
4月前
|
数据采集 机器学习/深度学习 Web App开发
Python爬虫如何应对贝壳网的IP封禁与人机验证?
Python爬虫如何应对贝壳网的IP封禁与人机验证?
|
5月前
|
数据采集 运维 监控
Serverless爬虫架构揭秘:动态IP、冷启动与成本优化
随着互联网数据采集需求的增长,传统爬虫架构因固定IP易封禁、资源浪费及扩展性差等问题逐渐显现。本文提出基于Serverless与代理IP技术的新一代爬虫方案,通过动态轮换IP、弹性调度任务等特性,显著提升启动效率、降低成本并增强并发能力。架构图与代码示例详细展示了其工作原理,性能对比数据显示采集成功率从71%提升至92%。行业案例表明,该方案在电商情报与价格对比平台中效果显著,未来有望成为主流趋势。
144 0
Serverless爬虫架构揭秘:动态IP、冷启动与成本优化
|
4月前
|
数据采集 Python
解决requests爬虫IP连接初始问题的方案。
通过上述技艺,爬虫程序的调试和优化将变得十分高效,最妙的是,这些技术诀窍不仅可以帮你避开网络世界里的雷区,更能让你在数据抓取的战场上游刃有余。
61 0
|
5月前
|
数据采集 人工智能 边缘计算
爬虫IP代理效率优化:策略解析与实战案例
本文深入探讨了分布式爬虫中代理池效率优化的关键问题。首先分析了代理效率瓶颈的根源,包括不同类型代理的特点、连接耗时及IP失效问题。接着提出了六大核心优化策略:智能IP轮换矩阵、连接复用优化、动态指纹伪装、智能重试机制等,并结合电商价格监控、社交媒体舆情分析和金融数据抓取三个实战案例,展示了优化效果。同时建立了三维效率评估体系,从质量、成本和稳定性全面衡量性能。最后展望了AI驱动调度、边缘计算融合等未来演进方向,帮助爬虫系统实现从“暴力采集”到“智能获取”的进化,大幅提升效率并降低成本。
167 0
|
数据采集 中间件 定位技术
新手爬虫er必刷!如何使用代理IP全攻略!
在爬虫开发中,代理IP是规避IP封锁和请求频率限制的重要工具,通过分散请求压力并模拟不同地理位置,提高数据抓取稳定性和成功率。本文详细介绍了代理IP的基本概念、选择服务的关键因素、获取及使用方法,包括Python中的Requests库和Scrapy框架的具体应用,以及IP管理与轮换策略,帮助新手掌握代理IP的使用技巧。
|
数据采集 Java
爬虫系统学习
爬虫系统学习