《Adobe Acrobat XI经典教程》—第2课制作可编辑和搜索的扫描文档

本文涉及的产品
企业资质识别,企业资质识别 200次/月
OCR统一识别,每月200次
教育场景识别,教育场景识别 200次/月
简介:

本节书摘来自异步社区《Adobe Acrobat XI经典教程》一书中的第2课制作可编辑和搜索的扫描文档,作者【美】Adobe公司,更多章节内容可以访问云栖社区“异步社区”公众号查看。

制作可编辑和搜索的扫描文档
Adobe Acrobat XI经典教程
从Microsoft Word或Adobe InDesign等应用程序中将文件转换成PDF时,文本是完全可以编辑和搜索的。但是,图像文件中的文本,无论是以图像格式保存的扫描文档还是文件,都无法编辑和搜索。利用OCR(光学字符识别)技术,Acrobat将可以分析图像,并用不连续的字符代替图像的某些部分。OCR同时还可以识别分析得可能不正确的字符。

下面,我们把OCR技术用在之前转换过的TIFF文件上。

1.选择File>Open,导览到Lesson02文件夹,然后打开之前保存的GC_VendAgree.pdf文件。

2.选择常用工具栏中的Selection工具(tb0205.tif),移动光标到文档的文本上。可以选择文档中的区域,但是Acrobat不会具体选择区域中的任何文本。

3.打开工具窗格,单击Text Recognition,打开面板。

4.在Text Recognition面板中,单击In This File,如图2.20所示。Acrobat显示Recognize Text对话框。


3326905a9e66fff0912ac0743ef65574184e8cb8

5.确保在对话框的Pages区域选中了Current Page。然后单击Edit,编辑转换设置,如图2.21所示。

6.在Recognize Text - General Settings对话框中,从PDF Output Style下拉列表中选择ClearScan,如图2.22所示。

利用ClearScan转换文件成可扩展的文本和图像,以在Acrobat中编辑。


03b6bfe9e7cfb449ddda1e7adf26dbf9df224ef7


737cd05952c601900b6bd0659aa77dc4b968fc11

提示:
扫描图像时,Acrobat能自动运行OCR技术。只需要在扫描前,在扫描仪预设(Windows)或Acrobat Scan对话框(Mac OS)中选择Make Searchable。
7.单击OK,关闭Recognize Text - General Settings对话框,然后再次单击OK,关闭Recognize Text对话框,运行ClearScan。

Acrobat会转换该文档。

8.利用Selection工具选择页面上的单词,如图2.23所示。Acrobat已经把图像转换成可编辑、可搜索的文本了。


0a0f06fe5cd976841dacb09132cb401e7923c555

9.单击Text Recognition面板中的Find First Suspect。Acrobat会搜索文档,找出任何可能转换得不正确的单词。如果发现任何可疑的单词,可以加以检查,并根据需要更改。用户可能还需要使用Content Editing面板中的Edit Text & Images工具,处理空格问题。

10.单击OK,关闭Touchup或Adobe Acrobat对话框,然后单击Close,关闭Find Element对话框。

11.选择File>Save As。导览到Lesson02文件夹,保存文件为GC_VendAgree_OCR.pdf。然后关闭文件。

注意:
默认情况下,Acrobat转换文档成可搜索的图像。可以利用这一设置转换文档,但是ClearScan选项往往提供更健壮、更精确的文本转换。
本文仅用于学习和交流目的,不代表异步社区观点。非商业转载请注明作译者、出处,并保留本文的原始链接。

相关文章
|
10月前
|
JavaScript Java 数据管理
房地产销售|基于Springboot+vue的房地产销售管理系统(源码+数据库+文档)
房地产销售|基于Springboot+vue的房地产销售管理系统(源码+数据库+文档)
151 0
|
SQL 分布式计算 MaxCompute
一次性查询一张表所有字段的空值率
一次性查询一张表所有字段的空值率
1981 2
西门子S7-1200的程序结构,块,组织块OB,功能块FB,功能FC
在S7-1200的编程中采用了块的概念,即将程序分解为独立的自成体系的各个部件,块类似于子程序的功能,但类型更多,功能更强大。在工业控制中,程序往往是非常庞大和复杂的,采用块的概念,便于大规模的程序设计和理解,也可以设计标准化的块程序进行重复调用。在S7-1200中支持以下类型的代码块,使用他们可以创建有效的用户程序结构,组织块OB、功能FC、功能块FB、数据块DB。
西门子S7-1200的程序结构,块,组织块OB,功能块FB,功能FC
|
SQL 关系型数据库 MySQL
阿里云慢SQL优化挑战大赛分析
阿里云慢SQL优化挑战赛,本次慢SQL优化挑战赛的题目全部来自于生产案例,将众多考察点揉合到一条SQL中,主要考虑了以下方面:表设计,索引优化,执行计划等优化知识,同时将历年生产中遇到的SQL优化案例进行总结分析,希望能够帮助到更多的开发者。
14421 0
|
安全 Android开发 数据安全/隐私保护
|
监控 IDE 测试技术
探索网易大型自动化测试解决方案-私有云
探索网易大型自动化测试解决方案-私有云
589 0
|
机器学习/深度学习 供应链 算法
区块链毕设论文集【23】
区块链作为一种崭新的、颠覆性的技术,是国内外活跃的研究领域和毕业设计选题方向。本文列出最新的一组区块链方面的论文,希望可以对选择区块链毕业设计的同学们有所帮助,这是[汇智网](http://www.hubwiz.com)编辑整理的区块链毕业设计论文系列中的第23篇。
636 0
区块链毕设论文集【23】
|
域名解析 弹性计算 网络协议
新手小白阿里云万网域名注册详细图文教程
新手阿里云万网域名注册详细图文教程 今天给大家介绍一下域名是怎么注册和使用的。
|
运维 监控 大数据
基于阿里云 Serverless 快速部署 Function 的极致体验
“Serverless 真正做到了部署应用无需涉及基础设施的建设,自动构建、部署和启动服务;不仅降低了应用运维复杂度和成本,还使软件应用的开发效率提高,缩短了产品的上市时间。”
基于阿里云 Serverless 快速部署 Function 的极致体验