关于Github中开源OCR项目的实验过程与思考

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 新手尝试Git clone Python OCR项目,遇到各种报错。测试了Paddle OCR、Tesseract OCR和EasyOCR。Paddle OCR因平台限制未能在Notebook部署,Tesseract OCR在Colab成功但无法复现。EasyOCR最终在阿里云天池和Colab部署成功,但天池GPU资源不足。建议使用魔搭社区的实例,阿里云提供免费OCR服务。寻求简单OCR项目推荐。附EasyOCR安装和使用代码。

本人新手一枚,想着自行学习下python语言,就尝试从相对简单的git clone ocr项目代码来进行实验,整个流程测试下来,遭遇到了就是各种稀奇古怪的报错,以下是整个实验的流程和思考。


搜索并浏览了Github中的开源ocr项目,选择了以下三个项目来进行实验和测试。


1. Paddle OCR  

最终结果:Notebook环境部署失败,无可奈何的还是用了X度的studio weiui环境进行体验,可以用),总结了下失败的原因,是因为X度虽然提供了免费的算力资源,但限制pip和pip3的组件的安装,只允许使用Paddle项目中的内容进行实验和测试(不管是文生图还是OCR),实际上,这样的行为以个人来看就不算开源了,因为以阿里的魔搭社区为例,里面可以自由的通过notebook环境进行任意测试,而不限制只允许使用通义相关的模型来部署和实践。


2. Tesseract OCR  

最终结果:在X歌colab成功的识别了,但遗憾的是,在最终进行二次测试并准备保存的时候,不小心按到了ctrl+z,当时不知道应该怎么还原,随后无论怎么填代码都会报错,因为无法再复现实验过程,只好放弃了。这个阶段的实验唯一的收获,是了解到在notebook环境中,不小心按到ctrl+z后立刻按ctrl+Y可以还原,这真是个深刻的教训。T.T ~T.T


3. EasyOCR  

最终结果:在X歌 colab提供的notebook环境部署成功,飞速的识别出了图片的文本内容并提取出来,同时支持之间填写需要识别图片的网页链接。考虑到学术速度的原因,尝试在阿里的天池notebook部署了两个晚上,最终成功了。这还得感谢通义千问,给出建议让修改在X歌的ocr识别代码中加入gpu=false。唯一美中不足的是天池提供的独享GPU资源不足,无法使用GPU环境来体验,而使用CPU又太慢了(CPU环境下,大约20-30分钟才下载好模型。识别又等待了30分钟。


写在最后的总结

X为,X度也提供了类似notebook的环境,但最终结果无一例外的全部部署失败,汇总起来,要么是不让安装pip或pip3安装,要么就是安装步骤中各种翻译都翻译不出来的报错,或提示找不到模块,或提示加pip3--user,然后反复循环还是部署不了,就放弃了。

在之后的时间中无意中接触到了魔搭社区,里面提供的CPU和GPU实例非常不错,低一个PAI实例部署了学术加速,实验起来就快多了,建议大家也可以试试。最后就是如果新人想体验ocr文字识别,又不想这个麻烦,阿里云提供了每月免费的ocr识别额度,而且是轻应用的布局(web gui)界面,不妨直接用这个。

顺便问下各位圈内大佬们,还有哪些相对比较简单的ocr项目分享给我下么~~


附:个人部署的完整代码及相应注释


# 安装EasyOCR

!pip3 install easyocr


# 导入EasyOCR

import easyocr


# 创建全局 OCR 实例 语言支持为 英语 和 简体中文

global_ocr = easyocr.Reader(['en', 'ch_sim'], gpu=False)


# 读取图像并进行 OCR

result = global_ocr.readtext('本地文件路径/要翻译的网址')


# 将识别结果保存到 当前 目录下

file_path = './ocr_result.txt'

with open(file_path, 'w', encoding='utf-8') as file:

   for detection in result:

       file.write(detection[1] + '\n')


# 打印识别结果

for detection in result:

   print(detection[1])

相关文章
|
7天前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
2月前
|
SQL JavaScript 前端开发
Github 2024-08-05 开源项目周报 Top15
根据 Github Trendings 的统计,本周(2024年8月5日统计)共有15个项目上榜。以下是根据开发语言汇总的项目数量: - Go 项目:4个 - JavaScript 项目:3个 - Python 项目:3个 - Java 项目:2个 - TypeScript 项目:2个 - C 项目:1个 - Shell 项目:1个 - Dockerfile 项目:1个 - 非开发语言项目:1个
37 2
|
2月前
|
人工智能 Rust JavaScript
Github 2024-08-26 开源项目周报Top15
根据Github Trendings的统计,本周共有15个项目上榜。以下是按开发语言汇总的项目数量:Python项目8个,TypeScript、C++ 和 Rust 项目各2个,Jupyter Notebook、Shell、Swift 和 Dart 项目各1个。其中,RustDesk 是一款用 Rust 编写的开源远程桌面软件,可作为 TeamViewer 的替代品;Whisper 是一个通用的语音识别模型,基于大规模音频数据集训练而成;初学者的生成式人工智能(第2版)则是由微软提供的18门课程,教授构建生成式AI应用所需的知识。
72 1
|
2月前
|
Rust Dart 前端开发
Github 2024-08-19 开源项目周报Top15
根据Github Trendings的统计,本周(2024年8月19日统计)共有15个项目上榜。按开发语言分类,上榜项目数量如下:Python项目最多,有7项;其次是JavaScript和TypeScript,各有3项;Dart有2项;HTML、PowerShell、Clojure和C++各1项。此外,还介绍了多个热门项目,包括Bootstrap 5、RustDesk、ComfyUI、易采集、Penpot等,涵盖了Web开发、远程桌面、自动化测试、设计工具等多个领域。
71 1
|
2月前
|
JavaScript 前端开发 Go
Github 2024-08-12 开源项目周报 Top14
本周Github Trendings共有14个项目上榜,按开发语言汇总如下:Python项目7个,TypeScript项目5个,C项目2个,JavaScript项目2个,Go和Batchfile项目各1个。其中亮点包括开发者职业成长指南、Windows激活工具、ComfyUI图形界面、AFFiNE知识库、易采集可视化爬虫等项目,涵盖多种实用工具和开源平台。
55 1
|
2月前
|
存储 JavaScript 前端开发
Github 2024-07-29 开源项目周报Top15
根据 Github Trendings 的统计,本周(2024年7月29日统计)共有15个项目上榜。按开发语言分类,项目数量如下:Python、Java、HTML 和 C 项目各有2项;TypeScript、JavaScript、Vue 和 Go 各有1项;另有1项非特定语言项目、1项 Dart 项目、1项 C++ 项目、1项 Rust 项目及1项 Jupyter Notebook 项目。这些项目涵盖了多种领域,如API开发、照片管理、PDF处理、AI技术等。
42 1
|
2月前
|
Rust JavaScript 前端开发
Github 2024-07-15 开源项目周报 Top15
根据 Github Trendings 的统计,2024年7月15日当周共有15个项目上榜。以下是按开发语言分类的项目数量汇总:Python项目5个,非开发语言项目4个,JavaScript项目3个,TypeScript项目2个,Go、Solidity和Java项目各1个,Rust项目1个。此外,介绍了多个值得关注的项目,包括免费编程学习平台 freeCodeCamp.org、免费编程书籍和学习资源清单、免费 API 集合等,涵盖了不同编程语言和技术领域。
42 1
|
2月前
|
存储 安全 Java
【事故】记一次意外把公司项目放到GitHub并被fork,如何使用DMCA下架政策保障隐私
在一次意外中,作者因三年前将测试代码遗忘在GitHub上而遭遇了代码被他人fork的问题。为解决这一危机,作者详细介绍了如何通过GitHub的DMCA下架通知流程安全删除敏感代码,包括处理私人信息和商标侵权的具体步骤。本文不仅提供了实用的操作指南,还强调了及时响应的重要性,帮助读者避免类似风险
23 0
【事故】记一次意外把公司项目放到GitHub并被fork,如何使用DMCA下架政策保障隐私
|
3月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
3月前
|
人工智能 JSON 文字识别
印刷文字识别使用问题之如何数电发票进行识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
下一篇
无影云桌面