GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理

简介: GitHub开源:17M超轻量级中文OCR模型、支持NCNN推理

目录

1、项目简介


2、项目配置


3、问题解决


1、项目简介

近期GitHub上一位大神开源了一个叫做chineseocr_lite的OCR的项目,这是一个超轻量级中文OCR,支持竖排文字识别、NCNN推理,识别模型型仅17M(Psenet (8.5M) + crnn (6.3M) + anglenet (1.5M))。


image.png


以下为可实现的功能:


提供轻量的 backone 检测模型 psenet(8.5M),crnn_lstm_lite (9.5M) 和行文本方向分类网络(1.5M);

任意方向文字检测,识别时判断行文本方向;

crnn\crnn_lite lstm\dense识别(ocr-dense和ocr-lstm是搬运chineseocr 的);

支持竖排文本识别;

ncnn实现psenet(未实现核扩展);

ncnn实现crnn_dense(改变了全连接为conv1x1);

ncnn实现shuuflenev2角度分类网络;

ncnn实现ocr整个流程。

2、项目配置

该作者已经将所需的第三方库归纳到requirements.txt文件中,可以直接输入以下指令批量安装:


pip install -r requirements.txt

安装成功效果如下所示:


image.png


使用作者的图片上传验证,测试无误。


image.png


3、问题解决

最最最重要的问题来了,这个项目配置环境是真的艰难啊!Window系统下配置环境过程中可能会遇到的问题归纳如下所示:


问题1:Python模块问题:ImportError: cannot import name 'PILLOW_VERSION' from 'PIL'


解决方法:使用from PIL import Image, ImageOps, ImageEnhance, __version__ 替换文件中from PIL import Image, ImageOps, ImageEnhance,PILLOW_VERSION这句,就是用__version__ 替换原来的PILLOW_VERSION。



image.png



问题2:File "D:\Python3.7.4\lib\subprocess.py", line 1178, in _execute_child startupinfo) FileNotFoundError: [WinError 2] 系统找不到指定的文件。


解决方法:到该文件路径下将shell配置为True。



image.png



问题3:RuntimeError: Cannot compile pse: C:\Users\13450\Desktop\chineseocr_lite-master\psenet\pse


解决方法:到该文件路径下屏蔽以下两句Linux语句。



image.png



问题4:File "D:\Python3.7.4\lib\site-packages\torch\nn\modules\rnn.py", line 123, in flatten_parameters self.batch_first, bool(self.bidirectional)) RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED


解决方法:进入PyTorch官网,选择合适自己的版本,这里我是用的是CPU编译。


image.png


问题5:UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 551: illegal multibyte sequence


解决方法:添加编码, encoding='UTF-8'。




image.png


问题6:File "D:\Python3.7.4\lib\site-packages\cheroot\wsgi.py", line 145, in respond for chunk in filter(None, response): RuntimeError: generator raised StopIteration


解决方法:添加以下两行异常处理。


image.png


这里将自己配置好的项目分享给大家,可以关注我的微信公众号,回复关键字:中文OCR,获取项目。


拓展:GitHub开源:支持100多种语言的OCR文字识别


相关文章
|
9月前
|
人工智能 JSON 文字识别
AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?
DocExt 是一款开源、免费的本地文档结构化提取工具,无需依赖 OCR 或云端服务,通过视觉语言模型(VLM)实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署,提供直观的 Gradio Web 界面和灵活的 API 调用方式,适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测,具备零模板限制和多模型支持等优势,是处理敏感文件的理想选择。
2232 0
|
12月前
|
人工智能 文字识别 异构计算
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
1073 1
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
|
5月前
|
机器学习/深度学习 文字识别 Linux
Umi-OCR_文字识别工具 免安装使用教程(附下载安装包)!永久免费,开源离线OCR识别软件下载
Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具,基于深度学习技术,可快速识别中文、英文、日文等多种语言。无需联网,保护隐私,适用于Windows和Linux系统,解压即用,操作简便,是处理图片转文本的理想选择。
2835 7
|
9月前
|
存储 人工智能 文字识别
Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流
Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。
970 2
|
11月前
|
存储 人工智能 JSON
传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构
本文解析开源OCR工具Versatile-OCR-Program的技术实现,其基于多模态融合架构实现90%以上识别准确率,支持数学公式与图表的结构化输出,为教育资料数字化提供高效解决方案。
1269 5
传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构
|
12月前
|
机器学习/深度学习 人工智能 文字识别
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。
1169 0
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
|
人工智能 文字识别 API
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型,具备强大的图像识别、OCR文字识别和数据提取能力,支持API调用,适用于多种应用场景。
2043 6
moonshot-v1-vision-preview:月之暗面Kimi推出多模态视觉理解模型,支持图像识别、OCR文字识别、数据提取
|
文字识别 BI API
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
999 1
|
人工智能 Java 语音技术
零基础上手百炼语音AI模型|Github示例工程介绍
零基础上手百炼语音AI模型|Github示例工程介绍
|
6月前
|
人工智能 JavaScript 前端开发
Github 2024-10-28 开源项目周报 Top15
本周GitHub热门项目涵盖Svelte、Open Interpreter、PowerShell等,涉及Web开发、AI助手、自动化工具等领域,Python、JavaScript为主流语言,展现开源技术活跃生态。(239字)
672 19