开源ocr库-转载

简介: 3月8日 开源的OCR库,Opensourced OCR library 突然想起如何做一个论坛的发帖机,但是现在多数都要图片认证,需要一个OCR库来识别图片。于是在网上找了找,还真是有很多实现: OCRE, OCR Easy, http://lem.

38

开源的OCR库,Opensourced OCR library

突然想起如何做一个论坛的发帖机,但是现在多数都要图片认证,需要一个OCR库来识别图片。于是在网上找了找,还真是有很多实现:

  1. Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html
  2. GOCR,
  3. OCRchie: Modular Optical Character Recognition Software http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html
  4. sf.net上还有很多正在进行的项目,不过大多数还停留在设想阶段

现在的问题,是测试这些库。不过猜测,这些OCR对付国内的网站还行,像MSN这样的图片肯定无效了。

下载这些程序分别测试了一下,

gocrocrad稍作修改可在Windows下编译运行。gocrvc6, ocradgcc

OCRE,OCRchieclara OCR需要X windowgtk不太好编译。

测试了一下sina, baidu, taobao,他们都或多或少做了干扰噪音,所以基本不能识别。

gocr能够正确识别的最好情况是能够正确识别4个数字中的3个。

   

看来在没有对图片作预处理之前,这种识别方式基本不可行。

还没有开始就已经结束了。

目录
相关文章
|
10月前
|
人工智能 JSON 文字识别
AI新宠DocExt:纯本地文档抽取,开源免费还无依赖!你还在为OCR头疼吗?
DocExt 是一款开源、免费的本地文档结构化提取工具,无需依赖 OCR 或云端服务,通过视觉语言模型(VLM)实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署,提供直观的 Gradio Web 界面和灵活的 API 调用方式,适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测,具备零模板限制和多模型支持等优势,是处理敏感文件的理想选择。
2338 0
|
人工智能 文字识别 异构计算
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
1105 1
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
|
6月前
|
机器学习/深度学习 文字识别 Linux
Umi-OCR_文字识别工具 免安装使用教程(附下载安装包)!永久免费,开源离线OCR识别软件下载
Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具,基于深度学习技术,可快速识别中文、英文、日文等多种语言。无需联网,保护隐私,适用于Windows和Linux系统,解压即用,操作简便,是处理图片转文本的理想选择。
3384 7
|
10月前
|
存储 人工智能 文字识别
Nanonets-OCR-s开源!复杂文档转Markdown SoTA,颠覆复杂文档工作流
Nanonets团队开源了 Nanonets-OCR-s,该模型基于Qwen2.5-VL-3B微调,9G显存就能跑。
1004 2
|
12月前
|
存储 人工智能 JSON
传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构
本文解析开源OCR工具Versatile-OCR-Program的技术实现,其基于多模态融合架构实现90%以上识别准确率,支持数学公式与图表的结构化输出,为教育资料数字化提供高效解决方案。
1326 5
传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
1985 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
机器学习/深度学习 人工智能 文字识别
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
Umi-OCR 是一款免费开源的离线 OCR 文字识别工具,支持截图、批量图片、PDF 扫描件的文字识别,内置多语言识别库,提供命令行和 HTTP 接口调用功能。
1284 0
Umi-OCR:31K Star!离线OCR终结者!公式+二维码+多语种,开源免费吊打付费
|
机器学习/深度学习 文字识别 开发者
使用OCR库Pix2Text执行p2t.recognize()时出现list index out of range的错误信息(附有Pix2Text识别图片内容和laTex公式的代码)
有时候报错并不是你代码有问题,源码出错也是很常见的情况,比如之前使用mxgraph也出现了不知名bug,最后也是修改的源码解决的。有疑问欢迎交流~ 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
文字识别 BI API
3.4K star!全能PDF处理神器开源!文档转换/OCR识别一键搞定
PDF-Guru 是一款开箱即用的全能型PDF处理工具,支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计,提供简洁的Web界面和API接口,开发者可快速集成到现有系统中。
1074 1
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!

热门文章

最新文章