狂揽16.9k star!Umi-OCR文字识别太火了,解决了多少人的痛点!

本文涉及的产品
票证核验,票证核验 50次/账号
小语种识别,小语种识别 200次/月
OCR统一识别,每月200次
简介: 狂揽16.9k star!Umi-OCR文字识别太火了,解决了多少人的痛点!

想必大家对文字识别(OCR)并不陌生,可能很多朋友使用还很频繁,在微信、QQ甚至小程序上经常性的使用,不论大家是看到一句很富有哲理的话还是很棒的台词甚至诗意浓浓的诗句,但是它们不是纯粹的文字,而是存在图片这个载体之上。


所以需要借助 OCR 对图片上的文字进行识别并拷贝下来。毕竟如何自己一个个字打还是很麻烦且浪费时间的,手机端 OCR 工具是很丰富的,但是电脑端好像真正能免费无限制使用的OCR工具真的很难找。


本文,就为大家介绍一款最近爆火的PC端开源OCR工具 Umi-OCR。该工具功能齐全,支持离线使用,在GitHub上更是斩获 16.9k star量,让人不得不琢磨体验一番。


Umi-OCR 项目介绍


Umi-OCR 是一款基于百度自研的PaddleOCR框架开源的 OCR 项目源、免费的离线OCR软件


该工具开源至今,一直再对功能进行更新支持,截屏/粘贴/批量导入图片、段落排版/去除水印、扫描/生成二维码等功能都已支持,不可畏不强大!


最重要的是免费、离线!


功能特点:


  •  免费:所有代码开源,完全免费。
  • 方便:解压即用,离线运行,无需网络。
  • 高效:自带高效率离线OCR引擎。只要电脑性能足够,可以比在线OCR服务更快。
  • 灵活:支持命令行、HTTP接口等多种调用方式。
  • 功能:截图OCR / 批量OCR / 二维码 / 数学公式识别


该工具很有很多优化的功能,还有体验上的优化,比如:兼容windows7系统、支持多国语言切换、字体/背景更换、系统托盘/快捷键等等诸多优化。


下载与使用


下载


作者提供了多种下载方式,可供我们自行选择最方便的一种:


然后我们只需下载 .7z格式的压缩包 或 .7z.exe 自执行文件。


最后直接执行 .exe 的文件就可以。也不需要我们去安装该工具即可运行Umi-OCR。


使用


1、第一次打开界面,切记如果不是中文语言,需到 全局设置→语言/Language->简体中文 进行设置。


2、接下来就是 Umi-OCR V2版本的优化了,标签页的显示,把 截图OCR、批量OCR、二维码识别等功能分标签展示,就跟浏览器一样,可以说很人性化了。


3、截图OCR的功能预览


点击截图OCR标签后,就可以用快捷键唤起截图,识别图中的文字。

  • 左侧的图片预览栏,可直接用鼠标划选复制。
  • 右侧的识别记录栏,可以编辑文字,允许划选多个记录复制。
  • 支持在别处复制图片,粘贴到Umi-OCR进行识别。


这部分功能最惊喜的还是针对 OCR文本后的处理,也就是段落的合并:

  • 单行:合并同一行的文字,适合绝大部分情景。
  • 多行-自然段:智能识别、合并属于同一段落的文字,适合绝大部分情景,如上图所示。
  • 多行-代码段:尽可能还原原始排版的缩进与空格。适合识别代码片段,或需要保留空格的场景。
  • 竖排:适合竖排排版。需要与同样支持竖排识别的模型库配合使用。


4、批量OCR的功能预览


字面意思也很好理解,就是可以选择多个图片同时进行识别,比如同时选择5中截图图片,批量识别。

  • 识别内容可以保存为 txt / jsonl / md / csv(Excel) 等多种格式。
  • 支持文本后处理技术,能识别属于同一自然段的文字,并将其合并。还支持代码段、竖排文本等多种处理方案。
  • 没有数量上限,可一次性导入几百张图片进行任务。
  • 支持任务完成后自动关机/待机。


而且批量OCR中还有一种特殊功能,可以自主排除图片中的不想要的文字。是不是更加人性化,考虑周到了。


  • 在批量识别页的右栏设置中可进入忽略区域编辑器。
  • 如上方样例,图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片,水印会对识别结果造成干扰。
  • 按住右键,绘制多个矩形框。这些区域内的文字将在任务中被忽略。
  • 请尽量将矩形框画得大一些,完全包裹住水印所有可能出现的位置。


5、二维码的功能预览


这个功能就不过多展开说了,就是支持二维码的信息识别和根据文字、链接、图片等信息生成自己的二维码。


6、全局设置的功能预览


全局设置就是该工具的系统设置界面,可以调整工具的全局参数,设置自己喜欢的样式。

  • 一键添加快捷方式或设置开机自启。
  • 更改界面语言。Umi支持繁中、英 语、日语等语言。
  • 切换界面主题。Umi拥有多个亮/暗主题。
  • 调整界面文字的大小和字体。
  • 切换OCR插件。
  • 渲染器:软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI错位的情况,请调整界面和外观 → 渲染器 ,尝试切换到不同渲染方案,或关闭硬件加速。


作者的展望


当然作者近期还会PDF识别和图片的翻译功能进行开发。我想大家对PDF识别的需求可能也会很大吧!


而且作者也对未来的新增功能做出了以下的计划:

  • 基于GPU的离线OCR。
  • 离线翻译。
  • 插件系统。
  • 固定区域识别。
  • 识别表格图片,输出为Excel。
  • 根据系统的深/浅模式,自动切换主题。
  • 历史记录系统。
  • 兼容 MacOS / Ubuntu 等平台。


总结


Umi-OCR 这款开源工具至少是小编遇到的Windows版本中功能最全、最实用、最人性化的一款OCR工具。大家值得一试。

如果大家有需要Mac版本的开源好用OCR工具需要,请留言。(小编有现成免费离线的Mac OCR工具可使用,已经用了两年了)

相关文章
|
1月前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
5月前
|
文字识别
印刷文字识别使用问题之影响印刷体文字识别率包括哪些
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 API 开发工具
印刷文字识别使用问题之如何提高OCR的识别率
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 前端开发 API
印刷文字识别操作报错合集之通过HTTPS连接到OCR服务的API时报错,该如何处理
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
4月前
|
机器学习/深度学习 文字识别 算法
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
百度飞桨(PaddlePaddle) - PaddleHub OCR 文字识别简单使用
323 0
|
5月前
|
JSON 文字识别 数据格式
文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
文本,文字识别,Flask实现内部接口开发,OCR外部接口的开发,如何开发一个识别接口,通过post调用,参数是图片的路径,内部调用,直接传图片路径就行
|
5月前
|
存储 文字识别 算法
印刷文字识别使用问题之电商图片文字识别是否支持一次调用识别多张图片
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 API
印刷文字识别使用问题之遇到个人证照识别文字识别错误,该怎么办
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别 Java API
印刷文字识别操作报错合集之复制文字识别OCR的标注任务时出现报错,该怎么办
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
5月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
下一篇
DataWorks