Java用xpdf库获取pdf文件的指定范围文本内容

简介: Java用xpdf库获取pdf文件的指定范围文本内容

概述
读取PDF文件的某一部分文本内容,可以使用开源项目xpdf。

从Java中调用xpdf,我们参照了《Java抽取Word,PDF的四种武器》文章最后提到的办法。

总而言之,调用xpdf十分简单,下面讲一下xpdf的配置问题。

系统基础环境要求
下面是对运行xpdf软件服务的计算机的要求:

l 您可以从以下位置下载并安装 xpdf分发版本-补丁3的Win32版本:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.00pl3-win32.zip

l 还需要从以下位置下载并安装 xpdf针对中文简体的语言支持包:
ftp://ftp.foolabs.com/pub/xpdf/xpdf-chinese-simplified.tar.gz

(更多下载信息参考http://www.foolabs.com/xpdf/download.html)。

调用示范
下载完毕,请将xpdf-3.00pl3-win32.zip解压缩到C盘xpdf目录下,我们将以c:\xpdf作为xpdf的工作路径。

然后,请将xpdf-chinese-simplified.tar\xpdf-chinese-simplified的内容解压缩到xpdf根目录下的chinese-simplified目录中。

为了启用中文简体语言包,您必须将xpdf目录下的sample-xpdfrc文件另存为xpdfrc文件。

注意:此文件为配置文件,而且名称必须是xpdfrc。如果是别的名字,即使调用pdftotext.exe时,传入”-cfg xpdfrc2”来告诉xpdf配置文件的名字,好像pdftotext.exe也并没有使用这个配置文件。所以为了减少误解,请您将配置文件直接命名为xpdfrc。

修改配置文件一:

并在这个xpdfrc文件最后加上这么一段话:

多加这么一段配置:

----- begin Chinese Simplified support package (2004-jul-27)

cidToUnicode Adobe-GB1 C:/xpdf/chinese-simplified/Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN C:/PublicInstall/xpdf/chinese-simplified/ISO-2022-CN.unicodeMap

unicodeMap EUC-CN C:/xpdf/chinese-simplified/EUC-CN.unicodeMap

unicodeMap GBK C:/xpdf/chinese-simplified/GBK.unicodeMap

cMapDir Adobe-GB1 C:/xpdf/chinese-simplified/CMap

toUnicodeDir C:/xpdf/chinese-simplified/CMap

displayCIDFontTT Adobe-GB1 /usr/..../gkai00mp.ttf

----- end Chinese Simplified support package

注意Map文件的路径一定要正确。

修改配置文件二:

另外,配置文件中原先没有加上一个“textPageBreaks”控制。为了避免这个分页符号,我们需要在xpdfrc文件“text output control”下面加上这么一段话:

多加这么一段配置:

If set to "yes", text extraction will insert page

breaks (form feed characters) between pages. This

defaults to "yes".

textPageBreaks no

设置textPageBreaks为no的意思是:在PDF文档的两页之间不加入分页符号。

之所以这样,是因为这个符号有时候会引起SAX解析XML上的困难。

修改配置文件三:

配置文件中原先把textEncoding注释了。这样默认的字符集是Latin1。我们必须打开它,并且就是指定textEncoding为UTF-8,而不是GB2312。

调用示范
下面的代码,演示了利用xpdf工具集中的pdftotext应用程序读取test.pdf的从第100个字符到第300个字符。给pdftotext.exe的运行参数中,“"-q"”指的是不打印转换中的错误提示;“"-cfg", "xpdfrc"”指的是采用配置文件xpdfrc。

代码示范:

String PATH_TO_XPDF="C:\xpdf\pdftotext.exe";

           String filename="c:\\test.pdf";



             int Begin = 100;

             int End = 300;



             String strResponse = "";



           String[] cmd = new String[]

                { PATH_TO_XPDF,

                        "-cfg", "xpdfrc", "-q", filename, "-"};

           Process p = Runtime.getRuntime().exec(cmd);

           BufferedInputStream bis = new BufferedInputStream(p.getInputStream());

           InputStreamReader reader = new InputStreamReader(bis, "UTF-8");





             if(Begin > 0)

             {

                  // 跳过Begin个字符

                  reader.skip(Begin);

             }





             // 本次要读取的字符数

             int nLengthRead = End - Begin;

             if(nLengthRead > 0)

             {

                  // 准备好缓冲区

                 char [] buf = new char[nLengthRead];

                  // 输出到缓冲区

                 int nLengthWriteToBuffer = reader.read(buf);

                 reader.close();



                  // nLengthWriteToBuffer就是当前读取到缓冲区的字符数

                  if(nLengthWriteToBuffer > 0)

                  {

                        // 只有nLengthWriteToBuffer大于0,才说明文档有内容

                        strResponse = new String(buf);

                  }

                  else

                  {

                        // 否则可能是到了文档结尾

                        strResponse = "PDF_EOF_OF_DOC";

                  }

             }



           System.out.println("\t\r\n" + strResponse);

//代码效果参考:http://www.zidongmutanji.com/bxxx/256070.html

编写者

日期

关键词

郑昀@ultrapower

2005-8-2

Java PDF xpdf

相关文章
|
3天前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
14 2
|
13天前
|
Java API Apache
Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
【10月更文挑战第29天】Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
66 5
|
6天前
|
存储 缓存 安全
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见
在 Java 编程中,创建临时文件用于存储临时数据或进行临时操作非常常见。本文介绍了使用 `File.createTempFile` 方法和自定义创建临时文件的两种方式,详细探讨了它们的使用场景和注意事项,包括数据缓存、文件上传下载和日志记录等。强调了清理临时文件、确保文件名唯一性和合理设置文件权限的重要性。
18 2
|
15天前
|
存储 安全 Java
如何保证 Java 类文件的安全性?
Java类文件的安全性可以通过多种方式保障,如使用数字签名验证类文件的完整性和来源,利用安全管理器和安全策略限制类文件的权限,以及通过加密技术保护类文件在传输过程中的安全。
|
17天前
|
存储 Java API
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
Java实现导出多个excel表打包到zip文件中,供客户端另存为窗口下载
24 4
|
19天前
|
Java 数据格式 索引
使用 Java 字节码工具检查类文件完整性的原理是什么
Java字节码工具通过解析和分析类文件的字节码,检查其结构和内容是否符合Java虚拟机规范,确保类文件的完整性和合法性,防止恶意代码或损坏的类文件影响程序运行。
|
19天前
|
Java API Maven
如何使用 Java 字节码工具检查类文件的完整性
本文介绍如何利用Java字节码工具来检测类文件的完整性和有效性,确保类文件未被篡改或损坏,适用于开发和维护阶段的代码质量控制。
|
20天前
|
前端开发 JavaScript
除了 jsPDF,还有哪些前端库可以用于生成 PDF?
【10月更文挑战第21天】这些前端库都有各自的特点和优势,你可以根据具体的项目需求、技术栈以及对功能的要求来选择合适的库。不同的库在使用方法、性能表现以及功能支持上可能会有所差异,需要根据实际情况进行评估和选择。
|
29天前
|
Java Apache Maven
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
|
29天前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
135 1