本人新手一枚,想着自行学习下python语言,就尝试从相对简单的git clone ocr项目代码来进行实验,整个流程测试下来,遭遇到了就是各种稀奇古怪的报错,以下是整个实验的流程和思考。
搜索并浏览了Github中的开源ocr项目,选择了以下三个项目来进行实验和测试。
1. Paddle OCR
最终结果:Notebook环境部署失败,无可奈何的还是用了X度的studio weiui环境进行体验,可以用),总结了下失败的原因,是因为X度虽然提供了免费的算力资源,但限制pip和pip3的组件的安装,只允许使用Paddle项目中的内容进行实验和测试(不管是文生图还是OCR),实际上,这样的行为以个人来看就不算开源了,因为以阿里的魔搭社区为例,里面可以自由的通过notebook环境进行任意测试,而不限制只允许使用通义相关的模型来部署和实践。
2. Tesseract OCR
最终结果:在X歌colab成功的识别了,但遗憾的是,在最终进行二次测试并准备保存的时候,不小心按到了ctrl+z,当时不知道应该怎么还原,随后无论怎么填代码都会报错,因为无法再复现实验过程,只好放弃了。这个阶段的实验唯一的收获,是了解到在notebook环境中,不小心按到ctrl+z后立刻按ctrl+Y可以还原,这真是个深刻的教训。T.T ~T.T
3. EasyOCR
最终结果:在X歌 colab提供的notebook环境部署成功,飞速的识别出了图片的文本内容并提取出来,同时支持之间填写需要识别图片的网页链接。考虑到学术速度的原因,尝试在阿里的天池notebook部署了两个晚上,最终成功了。这还得感谢通义千问,给出建议让修改在X歌的ocr识别代码中加入gpu=false。唯一美中不足的是天池提供的独享GPU资源不足,无法使用GPU环境来体验,而使用CPU又太慢了(CPU环境下,大约20-30分钟才下载好模型。识别又等待了30分钟。)
写在最后的总结
X为,X度也提供了类似notebook的环境,但最终结果无一例外的全部部署失败,汇总起来,要么是不让安装pip或pip3安装,要么就是安装步骤中各种翻译都翻译不出来的报错,或提示找不到模块,或提示加pip3--user,然后反复循环还是部署不了,就放弃了。
在之后的时间中无意中接触到了魔搭社区,里面提供的CPU和GPU实例非常不错,低一个PAI实例部署了学术加速,实验起来就快多了,建议大家也可以试试。最后就是如果新人想体验ocr文字识别,又不想这个麻烦,阿里云提供了每月免费的ocr识别额度,而且是轻应用的布局(web gui)界面,不妨直接用这个。
顺便问下各位圈内大佬们,还有哪些相对比较简单的ocr项目分享给我下么~~
附:个人部署的完整代码及相应注释
# 安装EasyOCR
!pip3 install easyocr
# 导入EasyOCR
import easyocr
# 创建全局 OCR 实例 语言支持为 英语 和 简体中文
global_ocr = easyocr.Reader(['en', 'ch_sim'], gpu=False)
# 读取图像并进行 OCR
result = global_ocr.readtext('本地文件路径/要翻译的网址')
# 将识别结果保存到 当前 目录下
file_path = './ocr_result.txt'
with open(file_path, 'w', encoding='utf-8') as file:
for detection in result:
file.write(detection[1] + '\n')
# 打印识别结果
for detection in result:
print(detection[1])