爬虫,遇到aspx动态加载的验证码怎么办?

简介: 爬虫,遇到aspx动态加载的验证码怎么办?

应用场景

只要折腾过爬虫的都应该会迟早碰到这个问题:验证码。如果无法解决这个问题,估计踏入爬虫学习的第一步就会受到满满的一大盆冷水。因为只要是一个有那么一点点反爬虫的网站都会有验证码。今天就要详细分析分析这一个问题。

image.png

解决方法一:cookie

学习爬虫必须要知道这个东西,Cookie,有时也用其复数形式 Cookies。类型为“小型文本文件”,是某些网站为了辨别用户身份,进行Session跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息。

你们有没有发现,有些网站只登录过一次,那么可以很长的一段时间都不需要登录。那是因为有cookie的存在。所以我们只要带着正确的cookie进行请求网站,这就可以绕过登录,也绕过了验证码。不过有些网站的cookie很烦,经常变换,也不知道多久变一次。所以是否用这种方法,需要看实际效果。

解决方法二:半自动化爬虫

技术宅怒爬qq空间表白墙,自动化编程的福利哦|Python 主题月就提过,selenuim是网站自动化的工具。他可以模拟人工点击网站,操作网站。其实用low一点的办法,能够进去网页,问题也不大,也就是半自动化操作。自己手动输入验证码。反正最后还是可以进入网站爬取信息的。初学者不用纠结于这个验证码是否手动输入,只要爬取的动作还是代码进行的就行。

解决方法三:全自动化爬虫

我认真找了一下这个验证码

image.png

发现他的返回是一个PassCode.aspx。而请求的url也可以找到。我们一定觉得很奇怪,明天他们是图片,为什么他不是png或者jpg呢?其实这是因为验证码需要做着动态响应,当我们点它一下的时候,它就会变换成不同的验证码。我们每点一次,都会把上面的连接请求一次。

接下来,我们需要保存这个验证码。他是aspx格式,我们需要把他保存为gif。
具体代码如下:

import requests
url = 'http://appsso.pc139.zgyey.com/PassCode.aspx'
r = requests.get(url = url)
content = r.content
f =open(r'C:\Users\Administrator\Desktop\aaa.gif','wb')
f.write(content)
f.close()

最后能把验证码顺利保存下来。

image.png

接下来,我们要做的是切割图片,然后用图片识别的技术把验证码识别出来,这里最后识别出来的结果也就是一个3+6这一条公式。还有别的验证码识别出来更加简单,也就是4个数字。

以后我会详细写一篇如何识别验证码图片的文章。完整爬虫思路就是上面所说。

相关文章
|
3月前
|
数据采集 机器学习/深度学习 安全
Python爬虫之极验滑动验证码的识别
了解极验滑动验证码、特点、识别思路、初始化、模拟点击、识别缺口、模拟拖动。
260 0
|
JSON JavaScript 前端开发
JS动态加载以及JavaScript void(0)的爬虫解决方案
Intro 对于使用JS动态加载, 或者将下一页地址隐藏为JavaScript void(0)的网站, 如何爬取我们要的信息呢? 本文以Chrome浏览器为工具, 36Kr为示例网站, 使用 Json Handle 作为辅助信息解析工具, 演示如何抓取此类网站.
6525 0
|
1月前
|
数据采集 机器学习/深度学习 Web App开发
提升爬虫OCR识别率:解决嘈杂验证码问题
使用OCR技术提升爬虫识别嘈杂验证码的准确率,结合Python代码示例展示了如何预处理图像、使用Tesseract和代理IP来规避反爬。通过灰度化、二值化增强验证码可读性,并利用代理IP保持爬虫稳定性。
|
2月前
|
数据采集
技术心得:我在写爬虫的验证码识别方案之有个平台叫无限代码
技术心得:我在写爬虫的验证码识别方案之有个平台叫无限代码
26 0
|
3月前
|
数据采集 前端开发 JavaScript
使用Python打造爬虫程序之揭开动态加载内容的神秘面纱:Python爬虫进阶技巧
【4月更文挑战第19天】本文探讨了如何用Python爬虫抓取动态加载内容。动态加载内容常由JavaScript异步加载,传统爬虫无法捕获。文章介绍了两种方法:1) 使用Selenium模拟浏览器行为,等待动态内容出现并提取数据;2) 分析网页API请求,直接模拟请求获取数据。同时,提醒注意性能、反爬策略和API变动等问题,强调持续学习与实践的重要性。
|
3月前
|
数据采集 机器学习/深度学习 API
爬虫过程中如何处理验证码?
【2月更文挑战第22天】【2月更文挑战第69篇】 爬虫过程中如何处理验证码?
354 1
|
3月前
|
数据采集 Web App开发 文字识别
Python爬虫之点触验证码的识别
点触验证码识别思路,初始化,获取,识别。
133 0
Python爬虫之点触验证码的识别
|
3月前
|
数据采集 文字识别 开发者
Python爬虫之图形验证码的识别
python爬虫逆向图形验证码分析,处理和测试实战。
99 0
|
12月前
|
数据采集 算法 开发者
如何使用Python爬虫处理多种类型的滑动验证码
如何使用Python爬虫处理多种类型的滑动验证码
|
数据采集 人机交互 API
「Python」爬虫-7.验证码的识别
> 本文主要介绍如何处理一些网页中简单的验证码问题。~~(只提供简单的思路,随着技术的发展,一些验证码已经防范的非常好了,一般的解决方法可能过不了验证码这一关🤺~~
379 0