Python爬虫验证码识别——手机验证码的自动化处理

简介: Python爬虫验证码识别——手机验证码的自动化处理

手机验证码的自动化处理
有一种验证码就是手机验证码,如果在PC上出现了一个手机验证码,需要先在PC上输入手机号,然后把短信验证码发到手机上,再在PC上输入收到的验证码,才能通过验证。

遇到这样的情况,如何才能将识别流程自动化呢?

短信验证码的收发
通常,我们的自动化脚本运行在PC上,例如打开一个网页,然后模拟输入手机号,点击获取验证码,接下来就需要输入验证码了。前三个流程自动化很容易,但验证码发送到手机上了,怎么把它转给PC呢?

自动化验证码的整个收发流程,可以这么实现——当手机接收到一条短信时,自动将这条短信转发至某处,例如转发至一台远程服务器或者直接发给PC,在PC上我们可以通过一些方法获取短信内容并提取验证码,再自动化填充到输入的地方即可。
关键步骤是如下两步:

  1. 监听手机收到短信的事件
  2. 将短信内容转发至指定的位置

这两步缺一不可,而且都需要再手机上完成。思路其实简单,以Android手机为例,如果有Android开发经验,这两个功能实现起来很简单的。

  1. 首先如何监听手机接收到的短信呢?在Android开发中,分为三个必要环节。

  2. 注册读取短信的权限:在一个Android App中,读取短信需要具备特定的权限,所以需要在

    Android App的AndroidManifest.xml文件中将读取短信的权限配置好,例如:
    <uses-permission android:name="android.permission.RECEIVE_SMS"></uses-permission>
    

注册广播事件:Android有一个基本组件叫BroadcastReceiver,是广播接收者的意思,可以用它来监听来自系统的各种事件广播,例如系统电量不足的广播、系统来电的广播,那系统接收到短信的广播自然也不在话下。这类似于注册一个监听器来监听系统接收到短信的事件。这里我们在AndroidManifest.xml文件中注册一个BroadcastReceiver,叫做Sm```js
sReceiver:







**实现短信广播的接收:**这里就需要真正实现短信接收的逻辑了,只需要实现一个SmsReceiver类,它继承了BroadcastReceiver类,然后实现其onReceive方法即可,其中intent参数里就包含了我们想要的短信内容,实现如下:
```js
public class SmsReceiver extents BroadcastReceiver{
    @Override
    public void onReceive(Context context, Intent intent){
        Bundle bundle = intent.getExtras();
        SmsMessage msg = null;
        if (null !=bundle){
            Object[] smsObj = (Object[]) bundle.get("pdus");
                msg = SmsMessage.createFromPdu((bytep[]) object);
                Log.e("短信号码","" + msg.getOriginationAddress());
                Log.e("短信内容","" + msg.getDisplayMessageBody());
                Log.e("短信时间","" + msg.getTimestampMillis());
                }
            }
        }

如此一来,我们便实现了短信的接收。

收到短信之后,发送自然也很简单了,例如服务器提供一个API, 请求该API即可实现数据的发送,Android的一些HTTP请求库就可以实现这个逻辑,例如利用OkHttp构造一个HTTP请求。

有没有现成的解决方案呢?当然,完全可以借助一些开源实现。一个开源软件SmsForwarder,中文叫做短信转发器,其GitHub地址为https://github.com/pppscn/SmsForwarder。它的基本框架如图所示:

image.png

SmsForwarder的架构非常清晰,可以监听收到短信的事件,获取短信的来源号码、接收卡槽、短信内容、接收时间等,然后将这些内容通过一定的规则转发出去,支持转发到邮箱、企业微信群机器人、企业微信应用、Telegram机器人和Webhook等。

a.实战演示
使用Flask写一个API, 代码如下:

from flask import Flask, request, jsonify
from loguru import logger

app = Flask(__name__)

@app.route('/sms', methods=['POST'])
def receive():
    sms_content = request.form.get('content')
    logger.debug(f'received {sms_content}')
    return jsonify(status='success')

if __name__ == '__main__':
    app.run(debug=True)

设置一个路由,接收POST请求,然后读取了Request表单的内容,其中content就是短信内容的详情,之后将其打印出来。运行结果如下:

* Serving Flask app 'server'
 * Debug mode: on
WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
 * Running on <http://127.0.0.1:5000>
Press CTRL+C to quit
 * Restarting with stat
 * Debugger is active!
 * Debugger PIN: 134-109-800

为了方便测试,可以用Ngrok工具将该服务器暴露到公网:

ngrok http 5000

运行之后,可以看到如下结果:

Session Status                online                                            
Account                       lxw1973 (Plan: Free)                              
Version                       3.8.0                                             
Region                        Japan (jp)                                        
Latency                       109ms                                             
Web Interface                 <http://127.0.0.1:4040>                             
Forwarding                    <https://ecb6-122-143-163-242.ngrok-free.app> -> htt

Connections                   ttl     opn     rt1     rt5     p50     p90       
                              0       0       0.00    0.00    0.00    0.00

可以看到Ngrok为我们配置了一个公网地址,例如访问https://ecb6-122-143-163-242.ngrok-free.app就相当于访问我们本地的http://localhost:5000服务,这样只需在手机上配置这个地址就可以将数据发送到PC端了。

接下来我们手机上打开SmsForder,添加一个Webhook类型的发送方,设置详情如图所示:

image.png

其中,我们把WebServer的URL直接设置成刚才Ngrok提供的公网地址,注意要在URL的后面加上sms。接着我们添加一个转发规则。如下图所示:
image.png

这里我们设置了内容匹配规则,将短信转发到Webhook这个发送方,即发送到我们刚刚搭建的Flask服务器上。添加完成后,可以尝试用另一台手机给当前运行次App的手机发送一个验证码信息,内容如下:

测试验证码65272752,一分钟有效

这时可以发现刚才的Flask服务器接收到了这样的结果,如图所示:
image.png

可以看到,发送给手机的验证码信息已经成功由手机发送到PC了,接着便可以对此信息进行解析和处理,然后存入数据库或消息队列。

a.批量收发
如果有大量手机和手机卡,则可以实现手机的群控处理,例如统一安装短信接收软件、统一配置相同的转发规则,从而接收和处理大量手机号的验证码。如图所示就是一个群控系统:

image.png

b.卡池、猫池
除了上面的方法,当然还有更专业的解决方案,例如用专业的手机卡池、猫池,配以专业的软件设备实现短信监听。如下图所示的设备支持插128张SIM卡,可以同时监听128个手机号的验证码。
image.png

c.接码平台
卡池、猫池的解决方案成本还是比较高的,而且这些方案其实已经不限于简单接收短信验证码了,就像手机群控系统一般会做手机群控爬虫,卡池也可以用来做4G/5G蜂窝代理,仅仅走短信收发当然也可以,未免有些浪费了。如果不想耗费过多成本,想实现短信验证码的自动化,还有一种方案就是接码平台,其基本思路如下:

  • 平台会维护大量手机号,并可能开放一些API或提供网页供我们调用来获取手机号和查看短信的内容。
  • 我们调用API或者爬取网页获取手机号,然后在对应的网站输入该手机号来获取验证码。
  • 通过调用API或者爬取网页获取对应手机号的短信内容,并交由爬虫处理。
相关文章
|
1天前
|
数据采集 JSON 网络协议
Python编程异步爬虫——aiohttp的使用
Python编程异步爬虫——aiohttp的使用
|
1天前
|
数据采集 调度 Python
Python编程异步爬虫——协程的基本原理(一)
Python编程异步爬虫——协程的基本原理(一)
|
1天前
|
数据采集 Python
Python编程异步爬虫——协程的基本原理(二)
Python编程异步爬虫——协程的基本原理(二)
|
2天前
|
数据采集 JavaScript 前端开发
如何使用Python爬虫处理JavaScript动态加载的内容?
如何使用Python爬虫处理JavaScript动态加载的内容?
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
123 4
|
2月前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。
|
3月前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
【7月更文挑战第31天】在网络数据的海洋中,使用Python的`requests`库构建网络爬虫就像探索未知的航船。HTTP协议指导爬虫与服务器交流,收集信息。HTTP请求包括请求行、头和体,响应则含状态行、头和体。`requests`简化了发送各种HTTP请求的过程。
75 4
|
9天前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
126 66
|
3月前
|
数据采集 存储 API
在信息时代,Python爬虫用于自动化网络数据采集,提高效率。
【7月更文挑战第5天】在信息时代,Python爬虫用于自动化网络数据采集,提高效率。基本概念包括发送HTTP请求、解析HTML、存储数据及异常处理。常用库有requests(发送请求)和BeautifulSoup(解析HTML)。基本流程:导入库,发送GET请求,解析网页提取数据,存储结果,并处理异常。应用案例涉及抓取新闻、商品信息等。
86 2
|
25天前
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
53 3