【Python实用技能】建议收藏：自动化实现网页内容转PDF并保存的方法探索（含代码，亲测可用）-阿里云开发者社区

【Python实用技能】建议收藏：自动化实现网页内容转PDF并保存的方法探索（含代码，亲测可用）

2024-04-23 1107

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Python实用技能】建议收藏：自动化实现网页内容转PDF并保存的方法探索（含代码，亲测可用）

大家好，我是同学小张，日常分享AI知识和实战案例

欢迎 点赞 + 关注 👏，持续学习，持续干货输出。

+v: jasper_8017 一起交流💬，一起进步💪。

微信公众号也可搜【同学小张】 🙏

本站文章一览：

有时候，我们想要将一些网页数据下载到本地，一般有两种做法。

第一种，打开网页，将网页中的内容复制粘贴到本地新建的一个空白文档中。

第二种，打开网页，右键 —> 打印，另存为PDF，如下图

第二种将网页保存成PDF的方法，能更好地保证网页内容的完整性和格式，看起来也比较美观，操作起来也比较方便。但是当URL数量多起来之后，这个重复的工作就比较枯燥了。

本文将探索自动化把URL列表所对应的网页打印成PDF文件的实现方法，内含完整代码，可直接运行使用，建议收藏备用。

1. 自动化方法探索

1.1 通过 pdfkit

参考：https://blog.csdn .net/dchzxl/article/details/125363204

1.1.0 环境准备

1.1.0.1 安装 pdfkit

pip install pdfkit

1.1.0.2 安装 wkhtmltopdf

下载地址：https://wkhtmltopdf.org/downloads.html

1.1.1 实现代码

import pdfkit
path_wk = r'd:\\wkhtmltopdf\\bin\\wkhtmltopdf.exe' #你的wkhtmltopdf安装位置
config = pdfkit.configuration(wkhtmltopdf = path_wk)
url = 'https://mp.weixin.qq.com/s/2m8MrsCxf5boiH4Dzpphrg'   # 你要转的网页链接
pdfkit.from_url(url, r'D:\\GitHub\\LEARN_LLM\\WeChat\\pdfkit_test.pdf', configuration=config)  # 你要保存到的路径及pdf名字
• 1
• 2
• 3
• 4
• 5
• 6

1.1.2 实现效果

有的网页可以打印成功：

但有的网页打印出来内容是空白：

没细研究，是需要补充什么参数才能打印全？

1.1.3 踩坑

遇到上面这个错，一般是from_url设置的文件保存路径不存在。

1.2 通过 selenium

1.2.1 实现代码

参考：https://www.cnblogs.com/new-june/p/14509601.html

import os,json,time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
chrome_options = webdriver.ChromeOptions()
settings = {
    "recentDestinations": [{
        "id": "Save as PDF",
        "origin": "local",
        "account": ""
    }],
    "selectedDestinationId": "Save as PDF",
    "version": 2,
    "isHeaderFooterEnabled": False,
    # "customMargins": {},
    # "marginsType": 2,
    # "scaling": 100,
    # "scalingType": 3,
    # "scalingTypePdf": 3,
    "isLandscapeEnabled":False,#landscape横向，portrait 纵向，若不设置该参数，默认纵向
    "isCssBackgroundEnabled": True,
    "mediaSize": {
        "height_microns": 297000,
        "name": "ISO_A4",
        "width_microns": 210000,
        "custom_display_name": "A4 210 x 297 mm"
    },
}
chrome_options.add_argument('--enable-print-browser')
#chrome_options.add_argument('--headless') #headless模式下，浏览器窗口不可见，可提高效率
prefs = {
    'printing.print_preview_sticky_settings.appState': json.dumps(settings),
    'savefile.default_directory': 'D:\GitHub\LEARN_LLM\WeChat' #此处填写你希望文件保存的路径
}
chrome_options.add_argument('--kiosk-printing') #静默打印，无需用户点击打印页面的确定按钮
chrome_options.add_experimental_option('prefs', prefs)
driver = webdriver.Chrome(options=chrome_options)
driver.get('https://mp.weixin.qq.com/s/2m8MrsCxf5boiH4Dzpphrg')
driver.maximize_window()
time.sleep(3)
driver.execute_script('document.title="my_test_file1.pdf";window.print();') #利用js修改网页的title，该title最终就是PDF文件名，利用js的window.print可以快速调出浏览器打印窗口，避免使用热键ctrl+P
driver.close()

1.2.2 实现效果

内容出来了：

但是图片不全：

1.2.3 代码改进

这是从网上找的另一段程序，主要是在打印前增加了从页面顶端滑动页面到底端的过程。

import os,json,time
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
 
 
def print_url_to_pdf(url, save_root, 
                     file_name='demo.pdf', 
                     scroll_distance=500, 
                     scroll_interval=0.5, 
                     headless=False):
    """
    save_root: pdf 保存目录，建议绝对路径
    file_name：pdf保存名称
    scroll_distance：每次向下滑动距离，模拟浏览页面，获得全部页面元素
    scroll_interval：滑动一次后，间隔时间
    headless：是否可见窗口，True, 不可见；False，可见，调试时可设为可见
    """
    chrome_options = webdriver.ChromeOptions()
 
    settings = {
        "recentDestinations": [{
            "id": "Save as PDF",
            "origin": "local",
            "account": ""
        }],
        "selectedDestinationId": "Save as PDF",
        "version": 2,
        "isHeaderFooterEnabled": False,
 
        # "customMargins": {},
        # "marginsType": 2,
        # "scaling": 100,
        # "scalingType": 3,
        # "scalingTypePdf": 3,
        "isLandscapeEnabled":False,#landscape横向，portrait 纵向，若不设置该参数，默认纵向
        "isCssBackgroundEnabled": True,
        "mediaSize": {
            "height_microns": 297000,
            "name": "ISO_A4",
            "width_microns": 210000,
            "custom_display_name": "A4 210 x 297 mm"
        },
    }
 
 
    chrome_options.add_argument('--enable-print-browser')
 
    if headless:
        chrome_options.add_argument('--headless') #headless模式下，浏览器窗口不可见，可提高效率
 
    prefs = {
        'printing.print_preview_sticky_settings.appState': json.dumps(settings),
        'savefile.default_directory': save_root #此处填写你希望文件保存的路径
    }
    chrome_options.add_argument('--kiosk-printing') #静默打印，无需用户点击打印页面的确定按钮
    chrome_options.add_experimental_option('prefs', prefs)
 
 
    driver = webdriver.Chrome(options=chrome_options)
 
    print('-'*100)
    print(f'now: url: {url}')
    driver.get(url)
 
    # 获取当前所有窗口的句柄
    handles = driver.window_handles
    # 切换到最后一个窗口（假设最后一个窗口是要操作的窗口）
    driver.switch_to.window(handles[-1])
 
 
    # 获取当前视口的高度
    viewport_height = driver.execute_script("return window.innerHeight;")
    # 获取滚动条的位置
    current_scroll_position = driver.execute_script("return window.scrollY;")
 
    # 定义滚动的距离和间隔时间
    scroll_distance = 200 # 每次滚动的距离
    scroll_interval = 0.5 # 每次滚动的间隔时间（秒）
 
    # 计算需要滚动的次数
    num_scrolls = int((driver.execute_script("return document.body.scrollHeight;") - current_scroll_position) / scroll_distance)
 
    print('scroll pages...')
    # 循环滚动页面
    for _ in range(num_scrolls):
        driver.execute_script(f"window.scrollBy(0, {scroll_distance});")
        time.sleep(scroll_interval)
 
    # # 执行 JavaScript 代码，将页面滚动到底部
    # driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    # 等待页面加载完成
    # 添加适当的等待时间或条件，确保页面已完全加载
    time.sleep(5)
 
    driver.maximize_window()
    
    #利用js修改网页的title，该title最终就是PDF文件名，
    # 利用js的window.print可以快速调出浏览器打印窗口，避免使用热键ctrl+P
    path = os.path.join(save_root, file_name)
    print(f'save pdf: {path}')
    driver.execute_script(f'document.title="{file_name}";window.print();') 
    driver.close()
 
 
def download_urls(url_list, name_list, save_root):
    for url, name in zip(url_list, name_list):
        print_url_to_pdf(url, save_root, name)
        time.sleep(5)
 
 
 
url_list =[
    'https://mp.weixin.qq.com/s/2m8MrsCxf5boiH4Dzpphrg'
]
name_list = [
    'test.pdf'
]
save_root = 'D:\\GitHub\\LEARN_LLM\\WeChat\\'
download_urls(url_list, name_list, save_root)

1.2.4 改进后效果

图片也正常生成了PDF：

图片能正常生成PDF的原因，其实就是在代码改进中，增加了页面加载的时间（页面从顶端滑到底部需要时间），这个过程中，图片就已经加载完了，然后打印，才能将图片打印出来。

1.2.5 踩坑

错误：TypeError: WebDriver.init() got multiple values for argument ‘options’
原因：selenium 4.10.0的接口变化导致。
解决：

## driver = webdriver.Chrome("./chromedriver", options=chrome_options) # 报错的代码
driver = webdriver.Chrome(options=chrome_options)

解决方案来源参考：https://stackoverflow.com/questions/76428561/typeerror-webdriver-init-got-multiple-values-for-argument-options

2. 该工作的意义与用途畅想

本文的代码实现的功能就是将URL背后的网页转换成PDF保存到本地。

可以畅想一下，有了这个功能，我们可以干些什么。最起码，我去探索本文内容的初衷是：

（1）爬取URL背后网页的信息，作为AI大模型RAG应用的知识库。

（2）给应用一个URL，应用自动帮我总结里面的要点，摘要，并且可以进行针对此文档的问答

（3）最基本的数据收集功能，将自己看到的好的文章，URL丢到应用中，自动分类存放。

这只是一点点的作用。

你会用来做什么呢？

如果觉得本文对你有帮助，麻烦点个赞和关注呗 ~~~

大家好，我是 同学小张，日常分享AI知识和实战案例

欢迎 点赞 + 关注 👏，持续学习，持续干货输出。

+v: jasper_8017 一起交流💬，一起进步💪。

微信公众号也可搜【同学小张】 🙏

本站文章一览：

【Python实用技能】建议收藏：自动化实现网页内容转PDF并保存的方法探索（含代码，亲测可用）

1. 自动化方法探索

1.1 通过 pdfkit

1.1.0 环境准备

1.1.0.1 安装 pdfkit

1.1.0.2 安装 wkhtmltopdf

1.1.1 实现代码

1.1.2 实现效果

1.1.3 踩坑

1.2 通过 selenium

1.2.1 实现代码

1.2.2 实现效果

1.2.3 代码改进

1.2.4 改进后效果

1.2.5 踩坑

2. 该工作的意义与用途畅想

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Python实用技能】建议收藏：自动化实现网页内容转PDF并保存的方法探索（含代码，亲测可用）

1. 自动化方法探索

1.1 通过 pdfkit

1.1.0 环境准备

1.1.0.1 安装 pdfkit

1.1.0.2 安装 wkhtmltopdf

1.1.1 实现代码

1.1.2 实现效果

1.1.3 踩坑

1.2 通过 selenium

1.2.1 实现代码

1.2.2 实现效果

1.2.3 代码改进

1.2.4 改进后效果

1.2.5 踩坑

2. 该工作的意义与用途畅想

热门文章

最新文章

相关课程

相关电子书

推荐镜像