[Java] 利用xpdf库获取pdf文件的指定范围文本内容

简介:

[Java] 利用xpdf库获取pdf文件的指定范围文本内容

编写者

日期

关键词

郑昀@ultrapower

2005-8-2

Java PDF xpdf

 

概述

读取PDF文件的某一部分文本内容,可以使用开源项目xpdf

Java中调用xpdf,我们参照了《Java抽取WordPDF的四种武器》文章最后提到的办法。

总而言之,调用xpdf十分简单,下面讲一下xpdf的配置问题。

系统基础环境要求

下面是对运行xpdf软件服务的计算机的要求:

l         您可以从以下位置下载并安装 xpdf分发版本-补丁3Win32版本:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip

l         还需要从以下位置下载并安装 xpdf针对中文简体的语言支持包:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

 

(更多下载信息参考http://www.foolabs.com/xpdf/download.html)

 

调用示范

下载完毕,请将xpdf-3.00pl3-win32.zip解压缩到Cxpdf目录下,我们将以c:\xpdf作为xpdf的工作路径。

然后,请将xpdf-chinese-simplified.tar\xpdf-chinese-simplified的内容解压缩到xpdf根目录下的chinese-simplified目录中。

为了启用中文简体语言包,您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc文件。

注意:此文件为配置文件,而且名称必须是xpdfrc。如果是别的名字,即使调用pdftotext.exe时,传入-cfg xpdfrc2来告诉xpdf配置文件的名字,好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解,请您将配置文件直接命名为xpdfrc

 

 

修改配置文件一:

并在这个xpdfrc文件最后加上这么一段话:

多加这么一段配置:

#----- begin Chinese Simplified support package (2004-jul-27)

cidToUnicode     Adobe-GB1  C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN     C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN       C:/xpdf/chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK      C:/xpdf/chinese-simplified/GBK.unicodeMap

cMapDir      Adobe-GB1  C:/xpdf/chinese-simplified/CMap

toUnicodeDir                 C:/xpdf/chinese-simplified/CMap

#displayCIDFontTT   Adobe-GB1  /usr/..../gkai00mp.ttf

#----- end Chinese Simplified support package

注意Map文件的路径一定要正确。

 

修改配置文件二:

另外,配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号,我们需要在xpdfrc文件“text output control”下面加上这么一段话:

多加这么一段配置:

# If set to "yes", text extraction will  insert  page

# breaks  (form feed characters) between pages.  This

# defaults to "yes".

textPageBreaks      no

 

设置textPageBreaksno的意思是:在PDF文档的两页之间不加入分页符号。

之所以这样,是因为这个符号有时候会引起SAX解析XML上的困难。

 

修改配置文件三:

配置文件中原先把textEncoding注释了。这样默认的字符集是Latin1。我们必须打开它,并且就是指定textEncodingUTF-8,而不是GB2312

调用示范

下面的代码,演示了利用xpdf工具集中的pdftotext应用程序读取test.pdf的从第100个字符到第300个字符。给pdftotext.exe的运行参数中,“"-q"”指的是不打印转换中的错误提示;“"-cfg", "xpdfrc"”指的是采用配置文件xpdfrc

代码示范:

String PATH_TO_XPDF="C:\\xpdf\\pdftotext.exe";

               String filename="c:\\test.pdf";

                

                 int Begin = 100;

                 int End = 300;

                

                 String strResponse = "";

                

               String[] cmd = new String[]

                    { PATH_TO_XPDF,

                            "-cfg", "xpdfrc", "-q", filename, "-"};

               Process p = Runtime.getRuntime().exec(cmd);

               BufferedInputStream bis = new BufferedInputStream(p.getInputStream());

               InputStreamReader reader = new InputStreamReader(bis, "UTF-8");

 

                

                 if(Begin > 0)

                 {

                      // 跳过Begin个字符

                      reader.skip(Begin);

                 }

                  

                

                 // 本次要读取的字符数

                 int nLengthRead = End - Begin;

                 if(nLengthRead > 0)

                 {

                      // 准备好缓冲区

                     char [] buf = new char[nLengthRead];

                      // 输出到缓冲区

                     int nLengthWriteToBuffer = reader.read(buf);

                     reader.close();

                     

                      // nLengthWriteToBuffer就是当前读取到缓冲区的字符数

                      if(nLengthWriteToBuffer > 0)

                      {

                            // 只有nLengthWriteToBuffer大于0,才说明文档有内容

                            strResponse = new String(buf);

                      }

                      else

                      {

                            // 否则可能是到了文档结尾

                            strResponse = "PDF_EOF_OF_DOC";

                      }

                 }

                

               System.out.println("\t\r\n" + strResponse);

 

编写者

日期

关键词

郑昀@ultrapower

2005-8-2

Java PDF xpdf

 

目录
相关文章
|
8月前
|
JavaScript 前端开发 Java
通义灵码 Rules 库合集来了,覆盖Java、TypeScript、Python、Go、JavaScript 等
通义灵码新上的外挂 Project Rules 获得了开发者的一致好评:最小成本适配我的开发风格、相当把团队经验沉淀下来,是个很好功能……
1415 103
|
2月前
|
人工智能 缓存 自然语言处理
Java与多模态AI:构建支持文本、图像和音频的智能应用
随着大模型从单一文本处理向多模态能力演进,现代AI应用需要同时处理文本、图像、音频等多种信息形式。本文深入探讨如何在Java生态中构建支持多模态AI能力的智能应用。我们将完整展示集成视觉模型、语音模型和语言模型的实践方案,涵盖从文件预处理、多模态推理到结果融合的全流程,为Java开发者打开通往下一代多模态AI应用的大门。
330 41
|
2月前
|
Java Unix Go
【Java】(8)Stream流、文件File相关操作,IO的含义与运用
Java 为 I/O 提供了强大的而灵活的支持,使其更广泛地应用到文件传输和网络编程中。!但本节讲述最基本的和流与 I/O 相关的功能。我们将通过一个个例子来学习这些功能。
183 1
|
5月前
|
监控 Java API
Java语言按文件创建日期排序及获取最新文件的技术
这段代码实现了文件创建时间的读取、文件列表的获取与排序以及获取最新文件的需求。它具备良好的效率和可读性,对于绝大多数处理文件属性相关的需求来说足够健壮。在实际应用中,根据具体情况,可能还需要进一步处理如访问权限不足、文件系统不支持某些属性等边界情况。
261 14
|
5月前
|
存储 Java 编译器
深入理解Java虚拟机--类文件结构
本内容介绍了Java虚拟机与Class文件的关系及其内部结构。Class文件是一种与语言无关的二进制格式,包含JVM指令集、符号表等信息。无论使用何种语言,只要能生成符合规范的Class文件,即可在JVM上运行。文章详细解析了Class文件的组成,包括魔数、版本号、常量池、访问标志、类索引、字段表、方法表和属性表等,并说明其在Java编译与运行过程中的作用。
142 0
|
5月前
|
存储 人工智能 Java
java之通过Http下载文件
本文介绍了使用Java实现通过文件链接下载文件到本地的方法,主要涉及URL、HttpURLConnection及输入输出流的操作。
323 0
|
6月前
|
存储 Java 数据安全/隐私保护
Java技术栈揭秘:Base64加密和解密文件的实战案例
以上就是我们今天关于Java实现Base64编码和解码的实战案例介绍。希望能对你有所帮助。还有更多知识等待你去探索和学习,让我们一同努力,继续前行!
469 5
|
6月前
|
网络协议 安全 Java
实现Java语言的文件断点续传功能的技术方案。
像这样,我们就完成了一项看似高科技、实则亲民的小工程。这样的技术实现不仅具备实用性,也能在面对网络不稳定的挑战时,稳稳地、不失乐趣地完成工作。
354 0
|
8月前
|
存储 JSON API
如何将 Swagger 文档导出为 PDF 文件
你会发现自己可能需要将 Swagger 文档导出为 PDF 或文件,以便于共享和存档。在这篇博文中,我们将指导你完成将 Swagger 文档导出为 PDF 格式的过程。
|
5月前
|
C#
【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件,PDF自动提取内容命名的方案和详细步骤
本工具可批量提取PDF中的合同编号、日期、发票号等关键信息,支持PDF自定义区域提取并自动重命名文件,适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现,提供完整代码示例与百度、腾讯网盘下载链接,助力高效处理PDF文档。
687 40