我有一个类型为ByteArrayInputStream的PDF InputStream
我需要将此输入转换为html字符串。
有没有可能?
谢谢...
一个可能的起点是使用pdf2dom。请在这里查看如何将依赖项集成到您的项目中,并阅读更多有关可能需要的依赖项的信息。
Pdf2Dom提供了一个PDF解析器,可将文档转换为HTML DOM表示形式。然后可以将该DOM树序列化为HTML文件或用于进一步处理。
这是一个小的代码示例,我尝试了一下,并且效果很好:
private void convert() {
try {
PDDocument pdf = PDDocument.load(new File(SOURCE_PDF));
PDFDomTree parser = new PDFDomTree(PDFDomTreeConfig.createDefaultConfig());
Writer output = new PrintWriter(TARGET_HTML, "UTF-8");
parser.writeText(pdf, output);
output.close();
pdf.close();
} catch (IOException | ParserConfigurationException e) {
// Handle errors
}
}
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。