狂揽16.9k star!Umi-OCR文字识别太火了,解决了多少人的痛点!

简介: 狂揽16.9k star!Umi-OCR文字识别太火了,解决了多少人的痛点!

想必大家对文字识别(OCR)并不陌生,可能很多朋友使用还很频繁,在微信、QQ甚至小程序上经常性的使用,不论大家是看到一句很富有哲理的话还是很棒的台词甚至诗意浓浓的诗句,但是它们不是纯粹的文字,而是存在图片这个载体之上。


所以需要借助 OCR 对图片上的文字进行识别并拷贝下来。毕竟如何自己一个个字打还是很麻烦且浪费时间的,手机端 OCR 工具是很丰富的,但是电脑端好像真正能免费无限制使用的OCR工具真的很难找。


本文,就为大家介绍一款最近爆火的PC端开源OCR工具 Umi-OCR。该工具功能齐全,支持离线使用,在GitHub上更是斩获 16.9k star量,让人不得不琢磨体验一番。


Umi-OCR 项目介绍


Umi-OCR 是一款基于百度自研的PaddleOCR框架开源的 OCR 项目源、免费的离线OCR软件


该工具开源至今,一直再对功能进行更新支持,截屏/粘贴/批量导入图片、段落排版/去除水印、扫描/生成二维码等功能都已支持,不可畏不强大!


最重要的是免费、离线!


功能特点:


  •  免费:所有代码开源,完全免费。
  • 方便:解压即用,离线运行,无需网络。
  • 高效:自带高效率离线OCR引擎。只要电脑性能足够,可以比在线OCR服务更快。
  • 灵活:支持命令行、HTTP接口等多种调用方式。
  • 功能:截图OCR / 批量OCR / 二维码 / 数学公式识别


该工具很有很多优化的功能,还有体验上的优化,比如:兼容windows7系统、支持多国语言切换、字体/背景更换、系统托盘/快捷键等等诸多优化。


下载与使用


下载


作者提供了多种下载方式,可供我们自行选择最方便的一种:


然后我们只需下载 .7z格式的压缩包 或 .7z.exe 自执行文件。


最后直接执行 .exe 的文件就可以。也不需要我们去安装该工具即可运行Umi-OCR。


使用


1、第一次打开界面,切记如果不是中文语言,需到 全局设置→语言/Language->简体中文 进行设置。


2、接下来就是 Umi-OCR V2版本的优化了,标签页的显示,把 截图OCR、批量OCR、二维码识别等功能分标签展示,就跟浏览器一样,可以说很人性化了。


3、截图OCR的功能预览


点击截图OCR标签后,就可以用快捷键唤起截图,识别图中的文字。

  • 左侧的图片预览栏,可直接用鼠标划选复制。
  • 右侧的识别记录栏,可以编辑文字,允许划选多个记录复制。
  • 支持在别处复制图片,粘贴到Umi-OCR进行识别。


这部分功能最惊喜的还是针对 OCR文本后的处理,也就是段落的合并:

  • 单行:合并同一行的文字,适合绝大部分情景。
  • 多行-自然段:智能识别、合并属于同一段落的文字,适合绝大部分情景,如上图所示。
  • 多行-代码段:尽可能还原原始排版的缩进与空格。适合识别代码片段,或需要保留空格的场景。
  • 竖排:适合竖排排版。需要与同样支持竖排识别的模型库配合使用。


4、批量OCR的功能预览


字面意思也很好理解,就是可以选择多个图片同时进行识别,比如同时选择5中截图图片,批量识别。

  • 识别内容可以保存为 txt / jsonl / md / csv(Excel) 等多种格式。
  • 支持文本后处理技术,能识别属于同一自然段的文字,并将其合并。还支持代码段、竖排文本等多种处理方案。
  • 没有数量上限,可一次性导入几百张图片进行任务。
  • 支持任务完成后自动关机/待机。


而且批量OCR中还有一种特殊功能,可以自主排除图片中的不想要的文字。是不是更加人性化,考虑周到了。


  • 在批量识别页的右栏设置中可进入忽略区域编辑器。
  • 如上方样例,图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片,水印会对识别结果造成干扰。
  • 按住右键,绘制多个矩形框。这些区域内的文字将在任务中被忽略。
  • 请尽量将矩形框画得大一些,完全包裹住水印所有可能出现的位置。


5、二维码的功能预览


这个功能就不过多展开说了,就是支持二维码的信息识别和根据文字、链接、图片等信息生成自己的二维码。


6、全局设置的功能预览


全局设置就是该工具的系统设置界面,可以调整工具的全局参数,设置自己喜欢的样式。

  • 一键添加快捷方式或设置开机自启。
  • 更改界面语言。Umi支持繁中、英 语、日语等语言。
  • 切换界面主题。Umi拥有多个亮/暗主题。
  • 调整界面文字的大小和字体。
  • 切换OCR插件。
  • 渲染器:软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI错位的情况,请调整界面和外观 → 渲染器 ,尝试切换到不同渲染方案,或关闭硬件加速。


作者的展望


当然作者近期还会PDF识别和图片的翻译功能进行开发。我想大家对PDF识别的需求可能也会很大吧!


而且作者也对未来的新增功能做出了以下的计划:

  • 基于GPU的离线OCR。
  • 离线翻译。
  • 插件系统。
  • 固定区域识别。
  • 识别表格图片,输出为Excel。
  • 根据系统的深/浅模式,自动切换主题。
  • 历史记录系统。
  • 兼容 MacOS / Ubuntu 等平台。


总结


Umi-OCR 这款开源工具至少是小编遇到的Windows版本中功能最全、最实用、最人性化的一款OCR工具。大家值得一试。

如果大家有需要Mac版本的开源好用OCR工具需要,请留言。(小编有现成免费离线的Mac OCR工具可使用,已经用了两年了)

相关文章
|
5天前
|
人工智能 JSON 文字识别
印刷文字识别操作报错合集之口算判题AI能力(文字识别OCR)接口返回数据的时,不显示正确答案只判断对错吗
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
5天前
|
文字识别 自然语言处理 开发工具
印刷文字识别产品使用合集之OCR统一识别功能已开通,响应为200但没有content信息,是什么原因
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5天前
|
文字识别
印刷文字识别产品使用合集之可以支持对哪些类型的票据进行识别支持数电发票的ocr识别吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6天前
|
文字识别 测试技术
印刷文字识别产品使用合集之阿里云通用文字识别和文字识别有啥区别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6天前
|
编解码 文字识别
印刷文字识别产品使用合集之文字大小在多少个像素范围内比较适合ocr
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
6天前
|
文字识别 Android开发 C++
Tesseract OCR集成Android Studio实现OCR识别
Tesseract OCR集成Android Studio实现OCR识别
11 0
|
28天前
|
文字识别 JavaScript Java
印刷文字识别产品使用合集之阿里云文字识别OCR demo主要有哪些
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
158 0
|
28天前
|
文字识别 API Swift
印刷文字识别产品使用合集之怎么进行牌匾文字识别
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
29天前
|
机器学习/深度学习 文字识别 监控
印刷文字识别产品使用合集之在OCR中,识别增值税专用发票的时候为什么会把不含税金额做取整处理
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
29天前
|
文字识别 JavaScript 前端开发
印刷文字识别产品使用合集之在OCR中,可以使用平台给的AppKey、AppSecret、AppCode进行调用吗
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。

热门文章

最新文章