Python3,这个库,真的是图片类型验证码的克星,真香。

简介: Python3,这个库,真的是图片类型验证码的克星,真香。

1、引言

小屌丝: 鱼哥,你说爬虫或者登录网页,最烦的是那个操作?

小鱼:图片验证码了。

小屌丝:确实是的,那有没有什么办法,能破解这种繁琐的验证呢?

小鱼:方法嘛,有啊,例如:cookie啊,或者利用第三方库啊

小屌丝:真的有第三方库,可以解决这个问题?

小鱼:对啊,很方便的,

小屌丝:演示一下如何?

小鱼:怎么突然点饿了 ~

小屌丝:我懂我懂, 你分享完,咱们泡澡去~

2、 ddddocr

2.1 介绍

验证码,复杂一点的有滑块验证码,点选文章和点选图片验证码。这些都是爬虫和WebUI自动化测试中中的老大难问题,今天介绍一款通用验证码识别 SDK 对他们彻底说拜拜,它的名字是 ddddocr 带带弟弟 OCR 通用验证码识别 SDK 免费开源版。

2.2 安装

老规矩,在使用前,必须要安装。

安装方式逃不了 pip方式:

pip install ddddocr

其他方式安装:

Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!

Python3:我低调的只用一行代码,就导入Python所有库!!

2.3 使用

2.3.1 滑块验证码

滑块验证码这里用的是豆瓣的滑块验证。下滑块是单独的透明背景图 hycdn.png。

背景图是带小滑块坑位的 background.jpg。

上代码

# -*- coding:utf-8 -*-
# @Time   : 2022-03-06
# @Author : carl_DJ
import ddddocr
det = ddddocr.DdddOcr(det=False, ocr=False)
with open('hycdn.png', 'rb') as f:
        target_bytes = f.read()
with open('background.jpg', 'rb') as f:
    background_bytes = f.read()
res = det.slide_match(target_bytes, background_bytes, simple_target=True)
print(f"{res}")

运行结果:

{'target_y': 0, 'target': [486, 126, 622, 262]}

target 属性的前两个值正好和豆瓣验证滑块 url 中提交的 ans 差不多。

2.3.2 点选类验证码

点选类验证码

上代码

# -*- coding:utf-8 -*-
# @Time   : 2022-03-06
# @Author : carl_DJ
import ddddocr
det = ddddocr.DdddOcr(det=True)
with open("eb.jpg", 'rb') as f:
    image = f.read()
poses = det.detection(image)
im = cv2.imread("eb.jpg")
for box in poses:
    x1, y1, x2, y2 = box
    im = cv2.rectangle(im, (x1, y1), (x2, y2), color=(0, 0, 255), thickness=2)
cv2.imwrite("result.jpg", im)

运行结果

2.3.3 字母数字验证码

字母数字验证码的图片来自于 google 搜索

上代码

# -*- coding:utf-8 -*-
# @Time   : 2022-03-06
# @Author : carl_DJ
import ddddocr
ocr = ddddocr.DdddOcr(old=True)
with open("z1.jpg", 'rb') as f:
    image = f.read()
res = ocr.classification(image)
print(res)

运行结果

2wkc

3、总结

今天的分享,就到这里了。

奇奇怪怪的知识,是不是又增加了。

曾经编写WebUI自动化脚本,为了不在验证码识别大费周折,就让开发大佬把验证码给注释掉。

现在,有了ddddocr, 就再也不用麻烦开发大佬注释验证码了,

所以,

关注小鱼,学习更多关于python第三方库的知识。

目录
相关文章
|
3天前
|
Python
使用Python的openpyxl库
【5月更文挑战第17天】使用Python的openpyxl库
13 2
|
5天前
|
Python
Python 内置正则表达式库re的使用
正则表达式是记录文本规则的代码,用于查找和处理符合特定规则的字符串。在Python中,常通过原生字符串`r'string'`表示。使用`re.compile()`创建正则对象,便于多次使用。匹配字符串有`match()`(从开头匹配)、`search()`(搜索首个匹配)和`findall()`(找所有匹配)。替换字符串用`sub()`,分割字符串则用`split()`。
19 3
|
5天前
|
数据可视化 数据挖掘 数据处理
Altair:Python数据可视化库的魅力之旅
Altair:Python数据可视化库的魅力之旅
12 0
|
5天前
|
SQL 关系型数据库 数据库连接
使用 Python 访问数据库的基本方法
【5月更文挑战第12天】在Python中操作数据库涉及安装数据库驱动(如mysql-connector-python, psycopg2, pymongo)、连接数据库、执行查询/更新、处理结果集及关闭连接。使用ORM(如SQLAlchemy)可简化操作。通过上下文管理器(with语句)能更好地管理资源和错误。注意根据实际需求处理事务、错误和安全性,例如使用SSL连接。
23 2
|
5天前
|
XML 前端开发 数据格式
BeautifulSoup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据
【5月更文挑战第10天】BeautifulSoup 是 Python 的一个库,用于解析 HTML 和 XML 文件,即使在格式不规范的情况下也能有效工作。通过创建 BeautifulSoup 对象并使用方法如 find_all 和 get,可以方便地提取和查找文档中的信息。以下是一段示例代码,展示如何安装库、解析 HTML 数据以及打印段落、链接和特定类名的元素。BeautifulSoup 还支持更复杂的查询和文档修改功能。
23 1
|
2天前
|
网络协议 数据处理 调度
深入探索Python异步编程:asyncio库的应用与实践
在现代软件开发中,异步编程已成为处理并发和I/O密集型任务的重要策略。本文将带您深入探索Python的asyncio库,解析其背后的设计原理,并通过实例展示如何在实际项目中应用asyncio实现高效的异步编程。我们不仅会探讨asyncio的基本用法,还会分析其性能优势,并探讨其与其他并发模型的比较。此外,文章还将涵盖asyncio在Web开发、网络编程和数据处理等场景中的应用案例,帮助您更好地理解并掌握这一强大的异步编程工具。
|
3天前
|
程序员 Python
tesseract库的安装与使用及在python中使用,Python程序员秋招三面蚂蚁金服
tesseract库的安装与使用及在python中使用,Python程序员秋招三面蚂蚁金服
|
3天前
|
Python
Python基础教程: math库常用函数(1),Python这些高端技术只有你还不知道
Python基础教程: math库常用函数(1),Python这些高端技术只有你还不知道
|
3天前
|
数据可视化 Python
Python----matplotlib库
Python----matplotlib库
12 1
|
3天前
|
监控 调度 开发者
Python 中的异步编程:理解 asyncio 库的基本原理与应用
本文将深入探讨 Python 中的异步编程技术,重点介绍 asyncio 库的基本原理与应用。通过解释事件循环、协程和 Future 对象的概念,读者将能够理解异步编程的工作原理,并学会如何利用 asyncio 库提高程序的性能和效率。本文还将通过实际示例演示如何使用 asyncio 库来处理 I/O 密集型任务和 CPU 密集型任务,以及如何避免常见的陷阱和错误。