《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档

简介:

本节书摘来自异步社区《Adobe Acrobat XI经典教程》一书中的第2课制作可编辑和搜索的扫描文档,作者【美】Adobe公司,更多章节内容可以访问云栖社区“异步社区”公众号查看。

制作可编辑和搜索的扫描文档
Adobe Acrobat XI经典教程
从Microsoft Word或Adobe InDesign等应用程序中将文件转换成PDF时,文本是完全可以编辑和搜索的。但是,图像文件中的文本,无论是以图像格式保存的扫描文档还是文件,都无法编辑和搜索。利用OCR(光学字符识别)技术,Acrobat将可以分析图像,并用不连续的字符代替图像的某些部分。OCR同时还可以识别分析得可能不正确的字符。

下面,我们把OCR技术用在之前转换过的TIFF文件上。

1.选择File>Open,导览到Lesson02文件夹,然后打开之前保存的GC_VendAgree.pdf文件。

2.选择常用工具栏中的Selection工具(tb0205.tif),移动光标到文档的文本上。可以选择文档中的区域,但是Acrobat不会具体选择区域中的任何文本。

3.打开工具窗格,单击Text Recognition,打开面板。

4.在Text Recognition面板中,单击In This File,如图2.20所示。Acrobat显示Recognize Text对话框。


3326905a9e66fff0912ac0743ef65574184e8cb8

5.确保在对话框的Pages区域选中了Current Page。然后单击Edit,编辑转换设置,如图2.21所示。

6.在Recognize Text - General Settings对话框中,从PDF Output Style下拉列表中选择ClearScan,如图2.22所示。

利用ClearScan转换文件成可扩展的文本和图像,以在Acrobat中编辑。


03b6bfe9e7cfb449ddda1e7adf26dbf9df224ef7


737cd05952c601900b6bd0659aa77dc4b968fc11

提示:
扫描图像时,Acrobat能自动运行OCR技术。只需要在扫描前,在扫描仪预设(Windows)或Acrobat Scan对话框(Mac OS)中选择Make Searchable。
7.单击OK,关闭Recognize Text - General Settings对话框,然后再次单击OK,关闭Recognize Text对话框,运行ClearScan。

Acrobat会转换该文档。

8.利用Selection工具选择页面上的单词,如图2.23所示。Acrobat已经把图像转换成可编辑、可搜索的文本了。


0a0f06fe5cd976841dacb09132cb401e7923c555

9.单击Text Recognition面板中的Find First Suspect。Acrobat会搜索文档,找出任何可能转换得不正确的单词。如果发现任何可疑的单词,可以加以检查,并根据需要更改。用户可能还需要使用Content Editing面板中的Edit Text & Images工具,处理空格问题。

10.单击OK,关闭Touchup或Adobe Acrobat对话框,然后单击Close,关闭Find Element对话框。

11.选择File>Save As。导览到Lesson02文件夹,保存文件为GC_VendAgree_OCR.pdf。然后关闭文件。

注意:
默认情况下,Acrobat转换文档成可搜索的图像。可以利用这一设置转换文档,但是ClearScan选项往往提供更健壮、更精确的文本转换。
本文仅用于学习和交流目的,不代表异步社区观点。非商业转载请注明作译者、出处,并保留本文的原始链接。

相关文章
|
Kubernetes 容器 Perl
kubeadm初始化k8s集群延长证书过期时间
kubeadm初始化k8s集群延长证书过期时间
|
API 语音技术 开发工具
FastASR+FFmpeg(音视频开发+语音识别)(二)
FastASR+FFmpeg(音视频开发+语音识别)(二)
862 0
|
4月前
|
人工智能 运维 安全
2025AI数字人企业年终盘点:TOP10厂商的技术路径与市场战略解析
面对数字人市场蓬勃发展,企业如何选型成关键。本文从技术、生态、合规三大维度,对比头部厂商实践,揭示选择核心:技术决定上限,生态影响融合,安全守住底线,助力政企实现虚实融合的长期数字化转型。
152 0
|
移动开发 JavaScript 前端开发
精通服务器推送事件(SSE)与 Python 和 Go 实现实时数据流 🚀
服务器推送事件(SSE)是HTML5规范的一部分,允许服务器通过HTTP向客户端实时推送更新。相比WebSocket,SSE更轻量、简单,适合单向通信场景,如实时股票更新或聊天消息。它基于HTTP协议,使用`EventSource` API实现客户端监听,支持自动重连和事件追踪。虽然存在单向通信与连接数限制,但其高效性使其成为许多轻量级实时应用的理想选择。文中提供了Python和Go语言的服务器实现示例,以及HTML/JavaScript的客户端代码,帮助开发者快速集成SSE功能,提升用户体验。
|
Linux 测试技术 网络安全
Linux系统之安装OneNav个人书签管理器
【10月更文挑战第19天】Linux系统之安装OneNav个人书签管理器
585 6
Linux系统之安装OneNav个人书签管理器
|
9月前
|
C语言 图形学 Windows
Windows下安装和配置GTK4(基于CLion)
本文介绍了作者选择GTK作为C语言图形库的原因,包括代码简洁、控件丰富和界面美观,并分享了在Windows环境下通过MSYS2安装GTK4及在CLion中配置开发环境的详细步骤。
922 0
|
运维 Kubernetes 监控
什么是Kubeasz
Kubeasz(Kubernetes Easy Setup with Ansible)是一个开源项目,旨在简化Kubernetes集群的部署过程。它使用Ansible作为基础设施管理工具,通过预定义的剧本和配置模板,自动化整个K8s集群的搭建流程。以下是对Kubeasz的详细介绍: ### 一、Kubeasz的特点 1. **快速部署**:Kubeasz支持一键部署Kubernetes集群,大大节省了运维成本和时间。 2. **高可用性**:可以部署高可用的Kubernetes集群,确保系统的稳定性和可靠性。 3. **可扩展性**:支持容器化部署,可以方便地扩展集群规模,满足不同的业务需
1986 3
|
前端开发 JavaScript Android开发
移动端点击事件:原理、问题与解决方案
前端技术在移动端点击事件上的应用,涉及触屏交互、响应速度优化及用户体验提升,确保网页或应用在手机等移动设备上流畅运行。
|
Java 数据库连接 mybatis
Springboot整合Mybatis,MybatisPlus源码分析,自动装配实现包扫描源码
该文档详细介绍了如何在Springboot Web项目中整合Mybatis,包括添加依赖、使用`@MapperScan`注解配置包扫描路径等步骤。若未使用`@MapperScan`,系统会自动扫描加了`@Mapper`注解的接口;若使用了`@MapperScan`,则按指定路径扫描。文档还深入分析了相关源码,解释了不同情况下的扫描逻辑与优先级,帮助理解Mybatis在Springboot项目中的自动配置机制。
1214 1
Springboot整合Mybatis,MybatisPlus源码分析,自动装配实现包扫描源码