Python办公自动化:提取pdf文件中的图片

简介: Python办公自动化:提取pdf文件中的图片

本期文章,我们用python实现对pdf文件中图片的复制,比如在wps中,这个功能是要收费的,如下图:

要会员,两年198元,呵呵呵。但在python中不存在,哈哈哈。我们来提取一下下面一个pdf中的图片。

共11张图片,直接上代码:


import osfrom io import BytesIOfrom PIL import Imageimport PyPDF2
def extract_images_from_pdf(pdf_path, image_dir):    if not os.path.exists(image_dir):        os.makedirs(image_dir)
    with open(pdf_path, 'rb') as pdf_file:        pdf_reader = PyPDF2.PdfFileReader(pdf_file)
        for page_num in range(pdf_reader.numPages):            page = pdf_reader.getPage(page_num)            try:                xObject = page['/Resources']['/XObject'].getObject()                                for obj in xObject:                    if xObject[obj]['/Subtype'] == '/Image':                        img_data = xObject[obj]._data                        img = Image.open(BytesIO(img_data))                        img.save(os.path.join(image_dir, f'{obj[1:]}.png'))                                    except Exception as e:                pass
if __name__ == '__main__':    pdf_path =r'C:\Users\XXXX\Python_project\python提取pdf中图片\input.pdf'    image_dir = r'C:\Users\XXXX\Python_project\python提取pdf中图片\images'    extract_images_from_pdf(pdf_path, image_dir)

跑一遍,看看文件夹里有没有? ,如下图:

507686eaaca89777170cf67184497428.png

done

相关文章
|
8月前
|
安全 JavaScript 开发者
Python 自动化办公神器|一键转换所有文档为 PDF
本文介绍一个自动化批量将 Word、Excel、PPT、TXT、HTML 及图片转换为 PDF 的 Python 脚本。支持多格式识别、错误处理与日志记录,适用于文档归档、报告整理等场景,大幅提升办公效率。仅限 Windows 平台,需安装 Office 及相关依赖。
449 0
|
7月前
|
Java 测试技术 数据安全/隐私保护
通过yaml文件配置自动化测试程序
通过yaml文件可以将自动化测试环境,测试数据和测试行为分开,请看一下案例
295 4
|
7月前
|
机器学习/深度学习 文字识别 Java
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
1888 0
|
8月前
|
程序员 数据安全/隐私保护 Python
1行Python代码,实现PDF的加密、解密
程序员晚枫分享使用python-office库实现PDF批量加密与解密的新方法。只需一行代码,即可完成单个或多个PDF文件的加密、解密操作,支持文件路径与正则筛选,适合自动化办公需求。更新至最新版,适配性更佳,操作更简单。
314 8
1行Python代码,实现PDF的加密、解密
|
9月前
|
编译器 Python
如何利用Python批量重命名PDF文件
本文介绍了如何使用Python提取PDF内容并用于文件重命名。通过安装Python环境、PyCharm编译器及Jupyter Notebook,结合tabula库实现PDF数据读取与处理,并提供代码示例与参考文献。
|
8月前
|
监控 Linux 数据安全/隐私保护
Python实现Word转PDF全攻略:从入门到实战
在数字化办公中,Python实现Word转PDF自动化,可大幅提升处理效率,解决格式兼容问题。本文详解五种主流方案,包括跨平台的docx2pdf、Windows原生的pywin32、服务器部署首选的LibreOffice命令行、企业级的Aspose.Words,以及轻量级的python-docx+pdfkit组合。每种方案均提供核心代码与适用场景,并涵盖中文字体处理、表格优化、批量进度监控等实用技巧,助力高效办公自动化。
1771 0
|
9月前
|
Web App开发 人工智能 数据可视化
猫头虎 推荐:国产开源AI工具 爱派(AiPy)|支持本地部署、自动化操作本地文件的AI办公神器
爱派(AiPy)是一款国产开源AI工具,支持本地部署与自动化操作,助力数据处理与办公效率提升。基于Python Use理念,AiPy让AI直接控制本地文件,简化繁琐任务,提供高效智能的解决方案,适用于数据工程师、分析师及日常办公用户。
4571 0
|
数据安全/隐私保护 Python
Python3给图片添加水印
Python3给图片添加水印
224 1
|
数据采集 分布式计算 搜索推荐
使用Python实现网页中图片的批量下载和水印添加保存
使用Python实现网页中图片的批量下载和水印添加保存
|
数据安全/隐私保护 Python
python 图片打水印 透明图片合并
python 图片打水印 透明图片合并
251 1

推荐镜像

更多