开发者社区> 问答> 正文

如何将PDF InputStream转换为HTML字符串?

我有一个类型为ByteArrayInputStream的PDF InputStream

我需要将此输入转换为html字符串。

有没有可能?

谢谢...

展开
收起
垚tutu 2019-11-29 23:01:01 1185 0
1 条回答
写回答
取消 提交回答
  • #include

    一个可能的起点是使用pdf2dom。请在这里查看如何将依赖项集成到您的项目中,并阅读更多有关可能需要的依赖项的信息。

    Pdf2Dom提供了一个PDF解析器,可将文档转换为HTML DOM表示形式。然后可以将该DOM树序列化为HTML文件或用于进一步处理。

    这是一个小的代码示例,我尝试了一下,并且效果很好:

    private void convert() {
        try {
            PDDocument pdf = PDDocument.load(new File(SOURCE_PDF));
            PDFDomTree parser = new PDFDomTree(PDFDomTreeConfig.createDefaultConfig());
            Writer output = new PrintWriter(TARGET_HTML, "UTF-8");
            parser.writeText(pdf, output);
            output.close();
            pdf.close();
        } catch (IOException | ParserConfigurationException e) {
            // Handle errors
        } 
    }
    
    2019-11-29 23:01:16
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
对象存储实战指南-试读 立即下载
OpenAnolis 龙蜥操作系统开源社区技术创新白皮书 立即下载
使用CNFS搭建弹性Web服务 立即下载