Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。

简介: Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。

1、引言

小鱼:小屌丝,你这是干啥呢?

小屌丝:我的女神想要这个网页的内容。

小鱼:那你也不能这一点点的复制粘贴啊,

小屌丝:为了我的女神,再辛苦我都愿意…

小鱼:咱能不能man一点,你直接把网页内容爬下来不就完事了,

小屌丝:我的女神还要把这些内容转换成PDF,

小鱼:你的女神事可真多…

小屌丝:鱼哥,你有什么好的法子吗?

小鱼:嗯,办法嘛,确实有

小屌丝:我懂。

2、代码实战

关于网页的内容转换成PDF,通常思路:

  • 爬取网页内容
  • 保存到本地
  • 转换成PDF文档

这种方法, 确实可以实现,但是,很麻烦,需要转两次。

而今天,小鱼给大家分享的方法,就3行代码,一次搞定。

2.1 模块介绍

2.1.1 pdfkit

pdfkit 是把 HTML+CSS 格式的文件转换成 PDF  的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。

2.2 安装

pip install pdfkit

其它安装方式,直接看这两篇:

Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!

Python3:我低调的只用一行代码,就导入Python所有库!

敲黑板:

pdfkit 是基于 wkhtmltopdf 的封装,所以需要先安装 wkhtmltopdf 。

wkhtmltopdf官网:https://wkhtmltopdf.org/

2.3 代码实例

2.3.1 URL 对应网页转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'URL 对应网页转 PDF'
#wkhtmltopdf.exe 为本地安装的路径
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_url参数,转换PDF
pdfkit.from_url(r'https://blog.csdn.net/wuyoudeyuer?type=blog', 'Carl_奕然.pdf', configuration=config)

运行结果:

2.3.2 HTML 文件转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'HTML 文件转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_file(r'D:\Carl_奕然的博客.html, 'Carl_奕然.pdf', configuration=config)

敲黑板

读取html,需要调用pdfkit.from_file 参数。

2.3.3 字符串转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'字符串转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_string(r'Ilike wangxinling, 'Carl_奕然.pdf', configuration=config)

运行结果

2.4 拓展

小屌丝:鱼哥,如果我不想写代码,能不能一键转换成PDF呢?

小鱼:嗯,这个可以实现,但是不能一键,必须一行代码。

小屌丝:也行,能少些一行是一行。

2.4.1 网页转换PDF

开篇小鱼也说过:pdfkit 是基于 wkhtmltopdf 的封装,所以功能肯定也是基于 wkhtmltopdf 的。

于是乎,我们就能先到,直接用wkhtmltopdf 的功能,看看能否实现PDF转换。

代码示例

运行结果

解析

2.4.2 网页转换图片

代码示例

我们来试一下网页转换图片,

同样,

第一步、打开powershell,进入到bin文件夹下

第二步、输入命令:.\wkhtmltoimage.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.png

运行结果

3、总结

今天的分享,就到这里了。

是不是奇奇怪怪的姿势,又增加了呢。

我们总结一下今天的内容:

pdfkit 可以可以实现的转换:


·URL 对应网页转 PDF

·html文件转 PDF

·字符串转 PDF

wkhtmltopdf.exe可以实现的转换:


·网页转图片

·网页转 PDF

所以,学会了这个第三方库,就实现了直接转换成PDF的方法。

最后,

关注小鱼博客,带你学习更多关于python第三方库的知识。


目录
相关文章
|
1月前
|
Python
Python技术解析:了解数字类型及数据类型转换的方法。
在Python的世界里,数字并不只是简单的数学符号,他们更多的是一种生动有趣的语言,用来表达我们的思维和创意。希望你从这个小小的讲解中学到了有趣的内容,用Python的魔法揭示数字的奥秘。
67 26
|
1月前
|
Python
在VScode环境下配置Python环境的方法
经过上述步骤,你的VSCode环境就已经配置好了。请尽情享受这扇你为自己开启的知识之窗。如同你在冒险世界中前行,你的探索之路只有越走越广,你获得的知识只会越来越丰富,你的能力只会越来越强。
152 37
|
21天前
|
JSON 数据格式 Python
解决Python requests库POST请求参数顺序问题的方法。
总之,想要在Python的requests库里保持POST参数顺序,你要像捋顺头发一样捋顺它们,在向服务器炫耀你那有条不紊的数据前。抓紧手中的 `OrderedDict`与 `json`这两把钥匙,就能向服务端展示你的请求参数就像经过高端配置的快递包裹,里面的商品摆放井井有条,任何时候开箱都是一种享受。
44 10
|
30天前
|
Python
Python 中__new__方法详解及使用
__new__ 是 Python 中用于创建类实例的静态方法,在实例化对象时优先于 __init__ 执行。它定义在基础类 object 中,需传递 cls 参数(表示当前类)。__new__ 可决定是否使用 __init__ 方法或返回其他对象作为实例。特性包括:1) 在实例化前调用;2) 始终为静态方法。示例中展示了其用法及 Python2 和 Python3 的差异,强调了参数处理的不同。
89 10
|
30天前
|
人工智能 Ruby Python
python__init__方法笔记
本文总结了Python中`__init__`方法的使用要点,包括子类对父类构造方法的调用规则。当子类未重写`__init__`时,实例化会自动调用父类的构造方法;若重写,则需通过`super()`或直接调用父类名称来显式继承父类初始化逻辑。文中通过具体代码示例展示了不同场景下的行为及输出结果,帮助理解类属性与成员变量的关系,以及如何正确使用`super()`实现构造方法的继承。
|
1月前
|
存储 索引 Python
[oeasy]python093_find方法_指数为负数_index_实际效果
本文介绍了Python中`find`方法与索引(index)的使用,包括负数索引的实际效果。回顾了`eval`函数的应用,并强调类名如`str`、`int`、`list`不可用作变量名以避免覆盖。通过示例解析了负数索引在字符串和列表中的作用,以及`index`方法的三个参数(value、start、stop)的用法。同时对比了`index`和`find`方法的区别:`index`找不到子串时抛出`ValueError`,而`find`返回-1。最后总结了正负索引的使用场景及两者的特性,提供了相关学习资源链接。
296 8
|
1月前
|
Python
Python 中__new__方法详解及使用
`__new__` 是 Python 中的一个特殊方法,用于控制对象的创建过程,在 `__init__` 之前执行。它是类的静态方法,负责返回一个实例。如果 `__new__` 不返回对象,`__init__` 将不会被调用。本文详细介绍了 `__new__` 的作用、特性及与 `__init__` 的区别,并通过实例演示了其在单例模式中的应用,同时对比了 Python2 和 Python3 中的写法差异。
|
Python Windows
Python 3 抓取网页资源的 N 种方法
1、最简单 import urllib.requestresponse = urllib.request.urlopen('http://python.org/')html = response.
789 0
|
Python Windows
python3 抓取网页资源的 N 种方法
1、最简单 import urllib.requestresponse = urllib.request.urlopen('http://python.org/')html = response.
1177 0
|
3月前
|
机器学习/深度学习 存储 设计模式
Python 高级编程与实战:深入理解性能优化与调试技巧
本文深入探讨了Python的性能优化与调试技巧,涵盖profiling、caching、Cython等优化工具,以及pdb、logging、assert等调试方法。通过实战项目,如优化斐波那契数列计算和调试Web应用,帮助读者掌握这些技术,提升编程效率。附有进一步学习资源,助力读者深入学习。

推荐镜像

更多