wkhtmltopdf工具将网站转换成pdf或图片

简介: 0. 下载与安装


image.png

1. 配置环境变量

我们进入 wktmltopdf 目录下的bin 目录,将目录的路径地址复制下来:

image.png

接下来,我们在wkhtmltopdf 目录下新建一个 wk-pdfs 文件夹,用于存放保存的pdf 文件:

image.png

同样的,我们在wkhtmltopdf 目录下新建一个 wk-images 文件夹,用于存放保存的图片文件:

image.png

注意不要wkhtmltopdf 文件夹的路径中不要有中文路径

2. 测试使用

2.1 将指定页面生成pdf

打开CMD命令行,执行如下命令:

wkhtmltopdf https://www.baidu.com F:\wkhtmltopdf\wk-pdfs\1.pdf

image.png

如图,这样就把https://www.baidu.com 的网页以 PDF 形式保存到了F:\wkhtmltopdf\wk-pdfs\1.pdf

打开该pdf 看一下效果:

image.png

2.2 将指定页面生成图片

打开CMD命令行,执行如下命令:

wkhtmltoimage https://www.baidu.com F:\wkhtmltopdf\wk-images\1.png(不压缩)

生成的图片效果如图:

image.png

wkhtmltoimage --quality 75 https://www.baidu.com F:\wkhtmltopdf\wk-images\2.png(压缩图片)

–quality 75:就表示生成图片的质量为原来的 75%!

对比二者大小:

image.png

3. Java 中使用wkhtmltopdf

代码如下:

/**
 * @Auther: csp1999
 * @Date: 2020/12/05/19:19
 * @Description:
 */
public class WKTests {
    public static void main(String[] args) {
        // F:\\wkhtmltopdf\\wkhtmltopdf\\bin\\wkhtmltoimage :该工具可执行文件的位置
        // --quality 75 :图片质量为75%
        // https://www.nowcoder.com : 要生成图片的网站地址
        // F:\\wkhtmltopdf\\wk-images\\3.png :生成图片保存的路径
        String cmd = "F:\\wkhtmltopdf\\wkhtmltopdf\\bin\\wkhtmltoimage" +
            "--quality 75 https://www.nowcoder.com F:\\wkhtmltopdf\\wk-images\\3.png";
        try {
            Runtime.getRuntime().exec(cmd);
            System.out.println("运行成功...");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

效果如图:

image.png

4. SpringBoot 整合wkhtmltopdf

4.1 application.properties

# wk 工具相关配置
# wk 工具的路径(生成图片)
wk.image.command=F:/wkhtmltopdf/wkhtmltopdf/bin/wkhtmltoimage
# wk 工具的路径(生成pdf)
wk.pdf.command=F:/wkhtmltopdf/wkhtmltopdf/bin/wkhtmltopdf
# 生成的图片文件存储路径
wk.image.storage=F:/wkhtmltopdf/wk-images/
# 生成的pdf文件存储路径
wk.pdf.storage=F:/wkhtmltopdf/wk-pdfs/

4.2 WkConfig 配置类

/**
 * @Auther: csp1999
 * @Date: 2020/12/05/19:34
 * @Description: Wk 工具相关配置类
 */
@Configuration
public class WkConfig {
    private static final Logger logger = LoggerFactory.getLogger(WkConfig.class);
    // 生成的图片文件存储路径
    @Value("${wk.image.storage}")
    private String wkImageStorage;
    /**
     * 该注解修饰的方法会自动执行,
     * 执行顺序:Constructor(构造方法) —> @Autowired(依赖注入) —> @PostConstruct(注释的方法)
     */
    @PostConstruct
    public void init() {
        // 创建Wk图片保存的目录
        File file = new File(wkImageStorage);
        if (!file.exists()) {
            file.mkdir();
            logger.info("创建WK图片目录: " + wkImageStorage);
        }
    }
}



相关文章
|
5天前
|
文字识别 BI
【图片型PDF】批量识别扫描件PDF指定区域局部位置内容,将识别内容导出Excel表格或批量改名文件,基于阿里云OCR对图片型PDF识别改名案例实现
在医疗和政务等领域,图片型PDF文件(如病历、报告、公文扫描件)的处理需求广泛。通过OCR技术识别这些文件中的文字信息,提取关键内容并保存为表格,极大提高了信息管理和利用效率。本文介绍一款工具——咕嘎批量OCR系统,帮助用户快速处理图片型PDF文件,支持区域识别、内容提取、导出表格及批量改名等功能。下载工具后,按步骤选择处理模式、进行区域采样、批量处理文件,几分钟内即可高效完成数百个文件的处理。
37 8
|
26天前
|
机器学习/深度学习 人工智能 文字识别
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
100 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
|
1月前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
154 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
2月前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
316 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
2月前
|
XML C# 数据格式
一个.NET开源、免费、功能强大的 PDF 处理工具
一个.NET开源、免费、功能强大的 PDF 处理工具
|
2月前
|
JavaScript
jquery图片和pdf文件预览插件
EZView.js是一款jquery图片和pdf文件预览插件。EZView.js可以为图片和pdf格式文件生成在线预览效果。支持的文件格式有pdf、jpg、 png、jpeg、gif。
68 16
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。
146 8
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
|
2月前
|
编解码 人工智能 文字识别
用PDF转换图片的方式弥补通义千问在扫描版PDF支持方面的缺失
当前通义千问Web版和本地版qwen-VL在处理扫描版PDF时均无法直接识别,导致实际应用中处理大量扫描PDF的需求难以满足。为此,通过使用Python的pdf2image库,可将PDF文件转换为图片,再进行OCR处理,实现解决方案。文中提供了具体的代码示例,展示了如何将PDF文件的每一页转换成图片,并保存至指定文件夹,为后续的OCR处理做好准备。
|
4月前
|
Java BI API
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
这篇文章介绍了如何在Spring Boot项目中整合iTextPDF库来导出PDF文件,包括写入大文本和HTML代码,并分析了几种常用的Java PDF导出工具。
896 0
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
|
9天前
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
129 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

热门文章

最新文章