wkhtmltopdf工具将网站转换成pdf或图片

简介: 0. 下载与安装


image.png

1. 配置环境变量

我们进入 wktmltopdf 目录下的bin 目录,将目录的路径地址复制下来:

image.png

接下来,我们在wkhtmltopdf 目录下新建一个 wk-pdfs 文件夹,用于存放保存的pdf 文件:

image.png

同样的,我们在wkhtmltopdf 目录下新建一个 wk-images 文件夹,用于存放保存的图片文件:

image.png

注意不要wkhtmltopdf 文件夹的路径中不要有中文路径

2. 测试使用

2.1 将指定页面生成pdf

打开CMD命令行,执行如下命令:

wkhtmltopdf https://www.baidu.com F:\wkhtmltopdf\wk-pdfs\1.pdf

image.png

如图,这样就把https://www.baidu.com 的网页以 PDF 形式保存到了F:\wkhtmltopdf\wk-pdfs\1.pdf

打开该pdf 看一下效果:

image.png

2.2 将指定页面生成图片

打开CMD命令行,执行如下命令:

wkhtmltoimage https://www.baidu.com F:\wkhtmltopdf\wk-images\1.png(不压缩)

生成的图片效果如图:

image.png

wkhtmltoimage --quality 75 https://www.baidu.com F:\wkhtmltopdf\wk-images\2.png(压缩图片)

–quality 75:就表示生成图片的质量为原来的 75%!

对比二者大小:

image.png

3. Java 中使用wkhtmltopdf

代码如下:

/**
 * @Auther: csp1999
 * @Date: 2020/12/05/19:19
 * @Description:
 */
public class WKTests {
    public static void main(String[] args) {
        // F:\\wkhtmltopdf\\wkhtmltopdf\\bin\\wkhtmltoimage :该工具可执行文件的位置
        // --quality 75 :图片质量为75%
        // https://www.nowcoder.com : 要生成图片的网站地址
        // F:\\wkhtmltopdf\\wk-images\\3.png :生成图片保存的路径
        String cmd = "F:\\wkhtmltopdf\\wkhtmltopdf\\bin\\wkhtmltoimage" +
            "--quality 75 https://www.nowcoder.com F:\\wkhtmltopdf\\wk-images\\3.png";
        try {
            Runtime.getRuntime().exec(cmd);
            System.out.println("运行成功...");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

效果如图:

image.png

4. SpringBoot 整合wkhtmltopdf

4.1 application.properties

# wk 工具相关配置
# wk 工具的路径(生成图片)
wk.image.command=F:/wkhtmltopdf/wkhtmltopdf/bin/wkhtmltoimage
# wk 工具的路径(生成pdf)
wk.pdf.command=F:/wkhtmltopdf/wkhtmltopdf/bin/wkhtmltopdf
# 生成的图片文件存储路径
wk.image.storage=F:/wkhtmltopdf/wk-images/
# 生成的pdf文件存储路径
wk.pdf.storage=F:/wkhtmltopdf/wk-pdfs/

4.2 WkConfig 配置类

/**
 * @Auther: csp1999
 * @Date: 2020/12/05/19:34
 * @Description: Wk 工具相关配置类
 */
@Configuration
public class WkConfig {
    private static final Logger logger = LoggerFactory.getLogger(WkConfig.class);
    // 生成的图片文件存储路径
    @Value("${wk.image.storage}")
    private String wkImageStorage;
    /**
     * 该注解修饰的方法会自动执行,
     * 执行顺序:Constructor(构造方法) —> @Autowired(依赖注入) —> @PostConstruct(注释的方法)
     */
    @PostConstruct
    public void init() {
        // 创建Wk图片保存的目录
        File file = new File(wkImageStorage);
        if (!file.exists()) {
            file.mkdir();
            logger.info("创建WK图片目录: " + wkImageStorage);
        }
    }
}



目录
打赏
0
0
0
0
257
分享
相关文章
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
BabelDOC 是一款专为科学论文设计的开源AI翻译工具,采用先进的无损解析技术和智能布局识别算法,能完美保留原文格式并生成双语对照翻译。
469 11
科研论文翻译神器!BabelDOC:开源AI工具让PDF论文秒变双语对照,公式图表全保留
【工具教程】批量PDF和图片OCR识别指定区域文字自动改图片名字,多个区域一次性批量识别改名批量重命名
本内容介绍了一款用于企业档案、医院病历及办公文件管理的图片和PDF文字识别工具。通过框选识别区域,软件可批量提取关键信息,实现文件重命名或导出为表格,极大提升管理效率。支持图片与PDF两种模式,操作简单,适用于合同、病历、报告等场景。提供详细步骤指导,包含区域设置、文件导入、批量处理及结果校验等功能。
117 8
1.6K star!这个开源文本提取神器,5分钟搞定PDF/图片/Office文档!
Kreuzberg 是一个基于 Python 的文本提取库,支持从 PDF、图像、Office 文档等 20+ 格式中提取文本内容。采用 MIT 开源协议,具备本地处理、异步架构、智能 OCR 等特性,特别适合需要隐私保护的文档处理场景。
Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具
Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具,支持 50 多种 PDF 操作,包括合并、拆分、转换、压缩等,同时提供多语言支持和企业级功能,满足个人和企业用户的多样化需求。
154 6
Stirling-PDF:51.4K Star!用Docker部署私有PDF工作站,支持50多种PDF操作,从此告别在线工具
对双栏 | 单双栏混合 | 图表文字混合的复杂布局的图片OCR识别(对布局复杂的整个pdf进行OCR识别)
这个故事告诉我们要多尝试不同的库和引擎,尤其是需求比较偏门或者少见的时候。同一个方向不同的库所擅长的领域是不一样的。 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
【图片型PDF】批量识别扫描件PDF指定区域局部位置内容,将识别内容导出Excel表格或批量改名文件,基于阿里云OCR对图片型PDF识别改名案例实现
在医疗和政务等领域,图片型PDF文件(如病历、报告、公文扫描件)的处理需求广泛。通过OCR技术识别这些文件中的文字信息,提取关键内容并保存为表格,极大提高了信息管理和利用效率。本文介绍一款工具——咕嘎批量OCR系统,帮助用户快速处理图片型PDF文件,支持区域识别、内容提取、导出表格及批量改名等功能。下载工具后,按步骤选择处理模式、进行区域采样、批量处理文件,几分钟内即可高效完成数百个文件的处理。
273 8
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Zerox 是一款开源的本地化高精度OCR工具,基于GPT-4o-mini模型,支持PDF、DOCX、图片等多种格式文件,能够零样本识别复杂布局文档,输出Markdown格式结果。
326 4
Zerox:AI驱动的万能OCR工具,精准识别复杂布局并输出Markdown格式,支持PDF、DOCX、图片等多种文件格式
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
503 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
489 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名
学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术,可自动提取学生信息并录入Excel,便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤,包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南,帮助用户高效处理PDF文件。 链接: - 百度网盘:[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘:[链接](https://share.weiyun.com/a77jklXK)
226 5

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等