20行代码教你如何批量提取图片中文字

2022-06-17 1688

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大家好，我是志斌~之前志斌在考研的时候遇到了一个问题，就是要将图片中的文字给提取出来，当时是J哥帮忙搞出来的，现在已经考完研了，也学会了提取方式，现在来给大家分享一下。

01创建账号

我们这次使用的是百度AI上的文字识别功能，来将图片上的文字进行提取。

我们先打开百度AI界面，然后点击控制台。

跳转到登陆界面后，输入账号密码后，跳转到管理界面，此时我们点击文字识别。进入到文字识别应用界面。

然后创建一个应用（如已创建好，就点击管理应用）。

创建好后，进入到应用列表中，记下来‘AppID’、‘API Key’、‘Secret Key’这三个参数的值。在后面对API进行调用的时候需要用到这三个参数。

02提取文字

我们在上面已经注册号百度AI的账号了，现在我们要开始使用它来将图片中的文字给提取出来。

首先，我们先安装一下要使用到的库。

pip install baidu-aip

这个库里提供了两个函数：AipOcr函数和client.basicGeneral函数。这两个函数一个实现用户验证功能，另一个实现了文字识别功能。代码如下：

from aip import AipOcr
APP_ID = '你的APPID'
API_KEY = 'API Key'
SECRET_KEY = '你的Secret Key'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
with open(img,'rb') as f:
   image = f.read()
word = client.basicGeneral(image)

转换效果如下：

从图中可以看出，这样的转化方式还是比率还是很高的。

03批量提取

我们已经学会如何提取单张图片中的文字了，现在我们只要能够遍历图片就可以了。在上一篇文章中，我们分享了一个遍历该目录下Excel文件的办法，遍历图片其实和他一样，只不过把Excel换成jpg即可。代码如下：

from pathlib import Path, PurePath
files = []
p = Path(src_path)
for x in p.iterdir():
   if PurePath(x).match('*.jpg'):
      files.append(x)

04小结

批量提取图片文字的思路是：

1. 注册百度AI的账号。

2. 通过调用百度AI，将图片中的文字提取。

3. 将提取出来的文字进行保存。

4. 依次遍历该目录下所有图片，重复2、3操作。

后台回复转化，即可获得源码。

20行代码教你如何批量提取图片中文字

01创建账号

02提取文字

03批量提取

04小结

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

20行代码教你如何批量提取图片中文字

01创建账号

02提取文字

03批量提取

04小结

热门文章

最新文章

相关电子书