Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。

简介: Python3,2行代码,多种方法,直接把网页内容转换成PDF文档和图片。

1、引言

小鱼:小屌丝,你这是干啥呢?

小屌丝:我的女神想要这个网页的内容。

小鱼:那你也不能这一点点的复制粘贴啊,

小屌丝:为了我的女神,再辛苦我都愿意…

小鱼:咱能不能man一点,你直接把网页内容爬下来不就完事了,

小屌丝:我的女神还要把这些内容转换成PDF,

小鱼:你的女神事可真多…

小屌丝:鱼哥,你有什么好的法子吗?

小鱼:嗯,办法嘛,确实有

小屌丝:我懂。

2、代码实战

关于网页的内容转换成PDF,通常思路:

  • 爬取网页内容
  • 保存到本地
  • 转换成PDF文档

这种方法, 确实可以实现,但是,很麻烦,需要转两次。

而今天,小鱼给大家分享的方法,就3行代码,一次搞定。

2.1 模块介绍

2.1.1 pdfkit

pdfkit 是把 HTML+CSS 格式的文件转换成 PDF  的一种工具,它是 wkhtmltopdf 这个工具包的 python 封装。

2.2 安装

pip install pdfkit

其它安装方式,直接看这两篇:

Python3,选择Python自动安装第三方库,从此跟pip说拜拜!!

Python3:我低调的只用一行代码,就导入Python所有库!

敲黑板:

pdfkit 是基于 wkhtmltopdf 的封装,所以需要先安装 wkhtmltopdf 。

wkhtmltopdf官网:https://wkhtmltopdf.org/

2.3 代码实例

2.3.1 URL 对应网页转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'URL 对应网页转 PDF'
#wkhtmltopdf.exe 为本地安装的路径
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_url参数,转换PDF
pdfkit.from_url(r'https://blog.csdn.net/wuyoudeyuer?type=blog', 'Carl_奕然.pdf', configuration=config)

运行结果:

2.3.2 HTML 文件转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'HTML 文件转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_file(r'D:\Carl_奕然的博客.html, 'Carl_奕然.pdf', configuration=config)

敲黑板

读取html,需要调用pdfkit.from_file 参数。

2.3.3 字符串转 PDF

代码示例:

# -*- coding:utf-8 -*-
# @Time   : 2022-06-12
# @Author : carl_DJ
import pdfkit
'字符串转 PDF'
config = pdfkit.configuration(wkhtmltopdf=r"D:\ProgramFiles\wkhtmltopdf\bin\wkhtmltopdf.exe")
#调用pdfkit.from_file参数,转换PDF
pdfkit.from_string(r'Ilike wangxinling, 'Carl_奕然.pdf', configuration=config)

运行结果

2.4 拓展

小屌丝:鱼哥,如果我不想写代码,能不能一键转换成PDF呢?

小鱼:嗯,这个可以实现,但是不能一键,必须一行代码。

小屌丝:也行,能少些一行是一行。

2.4.1 网页转换PDF

开篇小鱼也说过:pdfkit 是基于 wkhtmltopdf 的封装,所以功能肯定也是基于 wkhtmltopdf 的。

于是乎,我们就能先到,直接用wkhtmltopdf 的功能,看看能否实现PDF转换。

代码示例

运行结果

解析

2.4.2 网页转换图片

代码示例

我们来试一下网页转换图片,

同样,

第一步、打开powershell,进入到bin文件夹下

第二步、输入命令:.\wkhtmltoimage.exe https://blog.csdn.net/wuyoudeyuer/category_9471191.html D:\carl.png

运行结果

3、总结

今天的分享,就到这里了。

是不是奇奇怪怪的姿势,又增加了呢。

我们总结一下今天的内容:

pdfkit 可以可以实现的转换:


·URL 对应网页转 PDF

·html文件转 PDF

·字符串转 PDF

wkhtmltopdf.exe可以实现的转换:


·网页转图片

·网页转 PDF

所以,学会了这个第三方库,就实现了直接转换成PDF的方法。

最后,

关注小鱼博客,带你学习更多关于python第三方库的知识。


目录
相关文章
|
10天前
|
人工智能 编解码 文字识别
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
OCRmyPDF 是一款开源命令行工具,专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。
129 17
OCRmyPDF:16.5K Star!快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具
|
4月前
|
数据采集 Python
Python实用记录(七):通过retinaface对CASIA-WebFace人脸数据集进行清洗,并把错误图路径放入txt文档
使用RetinaFace模型对CASIA-WebFace人脸数据集进行清洗,并将无法检测到人脸的图片路径记录到txt文档中。
74 1
|
2月前
|
存储 运维 安全
《VERICUT 9.X电脑配置要求与安装说明(官方)》—— PDF文档
本文档详细介绍了 CGTech Vericut 9.X 的安装指南,涵盖安装前准备、安装流程、系统要求、故障排除、许可证配置及多种接口配置等内容,为用户提供全面的软件安装与配置指导。
73 3
|
3月前
|
JavaScript 前端开发 开发者
探索 DrissionPage: 强大的Python网页自动化工具
DrissionPage 是一个基于 Python 的网页自动化工具,结合了浏览器自动化的便利性和 requests 库的高效率。它提供三种页面对象:ChromiumPage、WebPage 和 SessionPage,分别适用于不同的使用场景,帮助开发者高效完成网页自动化任务。
350 4
|
4月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
261 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
4月前
|
计算机视觉 Python
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
这篇文章介绍了如何使用Python的OpenCV库将多张图片合并为一张图片显示,以及如何使用matplotlib库从不同txt文档中读取数据并绘制多条折线图。
74 3
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
|
3月前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
4月前
|
云计算 Python
用python给你写个简单的计算器功能网页啊
这张图片展示了阿里巴巴集团的组织架构图,涵盖了核心电商、云计算、数字媒体与娱乐、创新业务等主要板块,以及各板块下的具体业务单元和部门。
|
4月前
|
数据采集 Java Python
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
在信息化时代,实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置,高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理,解决了抓取效率低、请求限制等问题,提供了详细的代码示例和解析方法。
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
|
3月前
|
API C#
在.NET中使用QuestPDF高效地生成PDF文档
在.NET中使用QuestPDF高效地生成PDF文档

热门文章

最新文章