Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。

简介: Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。

1、引言

小鱼:小屌丝,你这是干啥呢?

小屌丝:我的女神想要这个网页的内容。

小鱼:那你也不能这一点点的复制粘贴啊,

小屌丝:为了我的女神,再辛苦我都愿意…

小鱼:咱能不能man一点,你直接把网页内容爬下来不就完事了,

小屌丝:我的女神还要把这些内容转换成PDF,

小鱼:你的女神事可真多…

小屌丝:鱼哥,你有什么好的法子吗?

小鱼:嗯,办法嘛,确实有

小屌丝:我懂。

2、代码实战

关于网页的内容转换成PDF,通常思路:

  • 爬取网页内容
  • 保存到本地
  • 转换成PDF文档

这种方法, 确实可以实现,但是,很麻烦,需要转两次。

而今天,小鱼给大家分享的方法,就3行代码,一次搞定。

2.1 模块介绍

2.1.1 pdfkit

pdfkit 是把 HTML+CSS 格式的文件转换成 PDF  的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。

2.2 安装

pip install pdfkit

其它安装方式,直接看这两篇:

Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!

Python3:我低调的只用一行代码,就导入Python所有库!

敲黑板:

pdfkit 是基于 wkhtmltopdf 的封装,所以需要先安装 wkhtmltopdf 。

wkhtmltopdf官网:https://wkhtmltopdf.org/

2.3 代码实例

2.3.1 URL 对应网页转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'URL 对应网页转 PDF'
#wkhtmltopdf.exe 为本地安装的路径
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_url参数,转换PDF
pdfkit.from_url(r'https://blog.csdn.net/wuyoudeyuer?type=blog', 'Carl_奕然.pdf', configuration=config)

运行结果:

2.3.2 HTML 文件转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'HTML 文件转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_file(r'D:\Carl_奕然的博客.html, 'Carl_奕然.pdf', configuration=config)

敲黑板

读取html,需要调用pdfkit.from_file 参数。

2.3.3 字符串转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'字符串转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_string(r'Ilike wangxinling, 'Carl_奕然.pdf', configuration=config)

运行结果

2.4 拓展

小屌丝:鱼哥,如果我不想写代码,能不能一键转换成PDF呢?

小鱼:嗯,这个可以实现,但是不能一键,必须一行代码。

小屌丝:也行,能少些一行是一行。

2.4.1 网页转换PDF

开篇小鱼也说过:pdfkit 是基于 wkhtmltopdf 的封装,所以功能肯定也是基于 wkhtmltopdf 的。

于是乎,我们就能先到,直接用wkhtmltopdf 的功能,看看能否实现PDF转换。

代码示例

运行结果

解析

2.4.2 网页转换图片

代码示例

我们来试一下网页转换图片,

同样,

第一步、打开powershell,进入到bin文件夹下

第二步、输入命令:.\wkhtmltoimage.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.png

运行结果

3、总结

今天的分享,就到这里了。

是不是奇奇怪怪的姿势,又增加了呢。

我们总结一下今天的内容:

pdfkit 可以可以实现的转换:


·URL 对应网页转 PDF

·html文件转 PDF

·字符串转 PDF

wkhtmltopdf.exe可以实现的转换:


·网页转图片

·网页转 PDF

所以,学会了这个第三方库,就实现了直接转换成PDF的方法。

最后,

关注小鱼博客,带你学习更多关于python第三方库的知识。


目录
相关文章
|
22天前
|
Python
Python实用记录(六):如何打开txt文档并删除指定绝对路径下图片
这篇文章介绍了如何使用Python打开txt文档,删除文档中指定路径的图片,并提供了一段示例代码来展示这一过程。
26 1
|
20天前
|
测试技术 API Python
【10月更文挑战第1天】python知识点100篇系列(13)-几种方法让你的电脑一直在工作
【10月更文挑战第1天】 本文介绍了如何通过Python自动操作鼠标或键盘使电脑保持活跃状态,避免自动息屏。提供了三种方法:1) 使用PyAutoGUI,通过安装pip工具并执行`pip install pyautogui`安装,利用`moveRel()`方法定时移动鼠标;2) 使用Pymouse,通过`pip install pyuserinput`安装,采用`move()`方法移动鼠标绝对位置;3) 使用PyKeyboard,同样需安装pyuserinput,模拟键盘操作。文中推荐使用PyAutoGUI,因其功能丰富且文档详尽。
WK
|
6天前
|
Python
Python中format_map()方法
在Python中,`format_map()`方法用于使用字典格式化字符串。它接受一个字典作为参数,用字典中的键值对替换字符串中的占位符。此方法适用于从字典动态获取值的场景,尤其在处理大量替换值时更为清晰和方便。
WK
63 36
|
17天前
|
机器学习/深度学习 数据采集 数据挖掘
11种经典时间序列预测方法:理论、Python实现与应用
本文将总结11种经典的时间序列预测方法,并提供它们在Python中的实现示例。
55 2
11种经典时间序列预测方法:理论、Python实现与应用
|
13天前
|
开发者 Python
Python中的魔法方法与运算符重载
在Python的奇妙世界里,魔法方法(Magic Methods)和运算符重载(Operator Overloading)是两个强大的特性,它们允许开发者以更自然、更直观的方式操作对象。本文将深入探讨这些概念,并通过实例展示如何利用它们来增强代码的可读性和表达力。
|
21天前
|
Linux Python
Python获得本机本地ip地址的方法
【10月更文挑战第8天】 socket模块包含了丰富的函数和方法,可以获取主机的ip地址,例如gethostbyname方法可以根据主机名获取ip地址,gethostbyname_ex方法可以获得本机所有ip地址列表,也可以使用netifaces模块获取网卡信息。
18 0
|
22天前
|
SQL 安全 数据库
Python防止SQL注入攻击的方法
Python防止SQL注入攻击的方法
28 0
|
16天前
|
Java Apache Maven
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
|
16天前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
48 1
|
26天前
|
索引 Python
PDF文件页面提取操作小指南
PDF文件页面提取操作小指南
50 4