Python办公自动化:提取pdf文件中的图片

简介: Python办公自动化:提取pdf文件中的图片

本期文章,我们用python实现对pdf文件中图片的复制,比如在wps中,这个功能是要收费的,如下图:

要会员,两年198元,呵呵呵。但在python中不存在,哈哈哈。我们来提取一下下面一个pdf中的图片。

共11张图片,直接上代码:


import osfrom io import BytesIOfrom PIL import Imageimport PyPDF2
def extract_images_from_pdf(pdf_path, image_dir):    if not os.path.exists(image_dir):        os.makedirs(image_dir)
    with open(pdf_path, 'rb') as pdf_file:        pdf_reader = PyPDF2.PdfFileReader(pdf_file)
        for page_num in range(pdf_reader.numPages):            page = pdf_reader.getPage(page_num)            try:                xObject = page['/Resources']['/XObject'].getObject()                                for obj in xObject:                    if xObject[obj]['/Subtype'] == '/Image':                        img_data = xObject[obj]._data                        img = Image.open(BytesIO(img_data))                        img.save(os.path.join(image_dir, f'{obj[1:]}.png'))                                    except Exception as e:                pass
if __name__ == '__main__':    pdf_path =r'C:\Users\XXXX\Python_project\python提取pdf中图片\input.pdf'    image_dir = r'C:\Users\XXXX\Python_project\python提取pdf中图片\images'    extract_images_from_pdf(pdf_path, image_dir)

跑一遍,看看文件夹里有没有? ,如下图:

507686eaaca89777170cf67184497428.png

done

相关文章
|
1天前
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
13 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
4天前
|
运维 监控 应用服务中间件
自动化运维:如何利用Python脚本提升工作效率
【10月更文挑战第30天】在快节奏的IT行业中,自动化运维已成为提升工作效率和减少人为错误的关键技术。本文将介绍如何使用Python编写简单的自动化脚本,以实现日常运维任务的自动化。通过实际案例,我们将展示如何用Python脚本简化服务器管理、批量配置更新以及监控系统性能等任务。文章不仅提供代码示例,还将深入探讨自动化运维背后的理念,帮助读者理解并应用这一技术来优化他们的工作流程。
|
5天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
2天前
|
Web App开发 测试技术 数据安全/隐私保护
自动化测试的魔法:使用Python进行Web应用测试
【10月更文挑战第32天】本文将带你走进自动化测试的世界,通过Python和Selenium库的力量,展示如何轻松对Web应用进行自动化测试。我们将一起探索编写简单而强大的测试脚本的秘诀,并理解如何利用这些脚本来确保我们的软件质量。无论你是测试新手还是希望提升自动化测试技能的开发者,这篇文章都将为你打开一扇门,让你看到自动化测试不仅可行,而且充满乐趣。
|
3月前
|
XML 缓存 JSON
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
238 0
|
21天前
|
Java Apache Maven
将word文档转换成pdf文件方法
在Java中,将Word文档转换为PDF文件可采用多种方法:1) 使用Apache POI和iText库,适合处理基本转换需求;2) Aspose.Words for Java,提供更高级的功能和性能;3) 利用LibreOffice命令行工具,适用于需要开源解决方案的场景。每种方法都有其适用范围,可根据具体需求选择。
|
21天前
|
Java Apache Maven
Java将word文档转换成pdf文件的方法?
【10月更文挑战第13天】Java将word文档转换成pdf文件的方法?
89 1
|
1月前
|
索引 Python
PDF文件页面提取操作小指南
PDF文件页面提取操作小指南
|
1月前
|
Python
Python对PDF文件页面的旋转和切割
Python对PDF文件页面的旋转和切割
|
1月前
|
计算机视觉 Python
Python操作PDF文件
Python操作PDF文件

热门文章

最新文章