关于Github中开源OCR项目的实验过程与思考

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 新手尝试Git clone Python OCR项目,遇到各种报错。测试了Paddle OCR、Tesseract OCR和EasyOCR。Paddle OCR因平台限制未能在Notebook部署,Tesseract OCR在Colab成功但无法复现。EasyOCR最终在阿里云天池和Colab部署成功,但天池GPU资源不足。建议使用魔搭社区的实例,阿里云提供免费OCR服务。寻求简单OCR项目推荐。附EasyOCR安装和使用代码。

本人新手一枚,想着自行学习下python语言,就尝试从相对简单的git clone ocr项目代码来进行实验,整个流程测试下来,遭遇到了就是各种稀奇古怪的报错,以下是整个实验的流程和思考。


搜索并浏览了Github中的开源ocr项目,选择了以下三个项目来进行实验和测试。


1. Paddle OCR  

最终结果:Notebook环境部署失败,无可奈何的还是用了X度的studio weiui环境进行体验,可以用),总结了下失败的原因,是因为X度虽然提供了免费的算力资源,但限制pip和pip3的组件的安装,只允许使用Paddle项目中的内容进行实验和测试(不管是文生图还是OCR),实际上,这样的行为以个人来看就不算开源了,因为以阿里的魔搭社区为例,里面可以自由的通过notebook环境进行任意测试,而不限制只允许使用通义相关的模型来部署和实践。


2. Tesseract OCR  

最终结果:在X歌colab成功的识别了,但遗憾的是,在最终进行二次测试并准备保存的时候,不小心按到了ctrl+z,当时不知道应该怎么还原,随后无论怎么填代码都会报错,因为无法再复现实验过程,只好放弃了。这个阶段的实验唯一的收获,是了解到在notebook环境中,不小心按到ctrl+z后立刻按ctrl+Y可以还原,这真是个深刻的教训。T.T ~T.T


3. EasyOCR  

最终结果:在X歌 colab提供的notebook环境部署成功,飞速的识别出了图片的文本内容并提取出来,同时支持之间填写需要识别图片的网页链接。考虑到学术速度的原因,尝试在阿里的天池notebook部署了两个晚上,最终成功了。这还得感谢通义千问,给出建议让修改在X歌的ocr识别代码中加入gpu=false。唯一美中不足的是天池提供的独享GPU资源不足,无法使用GPU环境来体验,而使用CPU又太慢了(CPU环境下,大约20-30分钟才下载好模型。识别又等待了30分钟。


写在最后的总结

X为,X度也提供了类似notebook的环境,但最终结果无一例外的全部部署失败,汇总起来,要么是不让安装pip或pip3安装,要么就是安装步骤中各种翻译都翻译不出来的报错,或提示找不到模块,或提示加pip3--user,然后反复循环还是部署不了,就放弃了。

在之后的时间中无意中接触到了魔搭社区,里面提供的CPU和GPU实例非常不错,低一个PAI实例部署了学术加速,实验起来就快多了,建议大家也可以试试。最后就是如果新人想体验ocr文字识别,又不想这个麻烦,阿里云提供了每月免费的ocr识别额度,而且是轻应用的布局(web gui)界面,不妨直接用这个。

顺便问下各位圈内大佬们,还有哪些相对比较简单的ocr项目分享给我下么~~


附:个人部署的完整代码及相应注释


# 安装EasyOCR

!pip3 install easyocr


# 导入EasyOCR

import easyocr


# 创建全局 OCR 实例 语言支持为 英语 和 简体中文

global_ocr = easyocr.Reader(['en', 'ch_sim'], gpu=False)


# 读取图像并进行 OCR

result = global_ocr.readtext('本地文件路径/要翻译的网址')


# 将识别结果保存到 当前 目录下

file_path = './ocr_result.txt'

with open(file_path, 'w', encoding='utf-8') as file:

   for detection in result:

       file.write(detection[1] + '\n')


# 打印识别结果

for detection in result:

   print(detection[1])

相关文章
|
3月前
|
编解码 Oracle Java
java9到java17的新特性学习--github新项目
本文宣布了一个名为"JavaLearnNote"的新GitHub项目,该项目旨在帮助Java开发者深入理解和掌握从Java 9到Java 17的每个版本的关键新特性,并通过实战演示、社区支持和持续更新来促进学习。
99 3
|
2天前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
40 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
2月前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
2月前
|
存储 Linux 数据安全/隐私保护
一键部署 200+ 开源Github 2k+ 星星的软件
Websoft9面板是一款基于Web的PaaS/Linux面板,支持在个人服务器上一键部署200多种热门开源应用,适用于个人开发者、中小企业、创业团队、教育机构和技术爱好者。它集成了丰富的开源软件,提供便捷的部署方式、高效的资源利用、良好的可扩展性及低技术门槛,帮助用户快速搭建和管理各类应用。
|
4月前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
3月前
|
编解码 人工智能 自然语言处理
MaskGCT:登上GitHub趋势榜榜首的TTS开源大模型
近日,香港中文大学(深圳)联手趣丸科技推出了新一代大规模声音克隆TTS模型——MaskGCT。一起看看该模型的一些表现吧!
|
5月前
|
存储 安全 Java
【事故】记一次意外把公司项目放到GitHub并被fork,如何使用DMCA下架政策保障隐私
在一次意外中,作者因三年前将测试代码遗忘在GitHub上而遭遇了代码被他人fork的问题。为解决这一危机,作者详细介绍了如何通过GitHub的DMCA下架通知流程安全删除敏感代码,包括处理私人信息和商标侵权的具体步骤。本文不仅提供了实用的操作指南,还强调了及时响应的重要性,帮助读者避免类似风险
87 1
【事故】记一次意外把公司项目放到GitHub并被fork,如何使用DMCA下架政策保障隐私
|
3月前
|
数据采集 应用服务中间件 Go
开源的键鼠共享工具「GitHub 热点速览」
开源的键鼠共享工具「GitHub 热点速览」
|
5月前
|
人工智能 Rust JavaScript
Github 2024-08-26 开源项目周报Top15
根据Github Trendings的统计,本周共有15个项目上榜。以下是按开发语言汇总的项目数量:Python项目8个,TypeScript、C++ 和 Rust 项目各2个,Jupyter Notebook、Shell、Swift 和 Dart 项目各1个。其中,RustDesk 是一款用 Rust 编写的开源远程桌面软件,可作为 TeamViewer 的替代品;Whisper 是一个通用的语音识别模型,基于大规模音频数据集训练而成;初学者的生成式人工智能(第2版)则是由微软提供的18门课程,教授构建生成式AI应用所需的知识。
157 1
|
5月前
|
Rust Dart 前端开发
Github 2024-08-19 开源项目周报Top15
根据Github Trendings的统计,本周(2024年8月19日统计)共有15个项目上榜。按开发语言分类,上榜项目数量如下:Python项目最多,有7项;其次是JavaScript和TypeScript,各有3项;Dart有2项;HTML、PowerShell、Clojure和C++各1项。此外,还介绍了多个热门项目,包括Bootstrap 5、RustDesk、ComfyUI、易采集、Penpot等,涵盖了Web开发、远程桌面、自动化测试、设计工具等多个领域。
127 1

热门文章

最新文章