【文档操作】提取PPT中的图片

简介: 今天要带大家实现的是PPT图片的提取。在我们学习工作中,PPT的使用还是非常频繁的,但是自己做PPT是很麻烦的,所以就需要用到别人的模板或者素材,这个时候提取PPT图片就可以减少我们很多工作。

一、前言

今天要带大家实现的是PPT图片的提取。在我们学习工作中,PPT的使用还是非常频繁的,但是自己做PPT是很麻烦的,所以就需要用到别人的模板或者素材,这个时候提取PPT图片就可以减少我们很多工作。

二、实现原理

其实实现原理很简单,我们的pptx文件其实是一个压缩包。我们可以直接修改pptx文件的后缀,改成zip然后解压,比如下面这个:

网络异常,图片无法展示
|

这是解压后的文件。我们可以在ppt目录下找到一个media目录,这个目录下就是我们要的图片的。这个目录包含了PPT的所有多媒体文件。

知道这点后,我们就可以选择用Python来解压出PPT中的media目录就可以提取出所有图片了。

三、提取PPT中的图片

1、打开压缩包

在Python中提供了一个zipfile模块用于处理压缩包文件。我们来看看它的简单操作:

from zipfile import ZipFile
# 打开压缩文件
f = ZipFile("test.pptx")
# 查看压缩包所有文件
for file in f.namelist():
    print(file)
# 关闭压缩包文件
f.close()
复制代码

输出的部分结果如下:

[Content_Types].xml
_rels/.rels
ppt/presentation.xml
ppt/slides/_rels/slide2.xml.rels
ppt/slides/slide1.xml
ppt/slides/slide2.xml
ppt/slides/slide3.xml
复制代码

可以看到我们打印出了压缩包的文件。

2、解压文件

我们还可以通过下面的方式打开压缩包:

from zipfile import ZipFile
with ZipFile("test.pptx") as f:
    for file in f.namelist():
        print(file)
复制代码

通过with语句,就可以不显示地调用close方法。下面我们看看解压操作:

from zipfile import ZipFile
with ZipFile("test.pptx") as f:
    for file in f.namelist():
        # 解压文件
        f.extract(file, path="unzip")
复制代码

解压文件的操作通过f.extract来实现,这里传入了两个参数,分别是压缩包文件,和解压路径,如果压缩包有密码还需要传入解压密码。

然后我们还需要判断一下,如果是媒体目录我们才解压。我们添加一点代码:

from zipfile import ZipFile
with ZipFile("test.pptx") as f:
    for file in f.namelist():
        # 如果是media目录下的文件就解压
        if file.startswith("ppt/media/"):
            f.extract(file, path="unzip")
复制代码

这样我们就实现了PPT图片的提取。

四、提取PPT中的图片

我们把上面代码再完善一下:

import os
from zipfile import ZipFile
# 解压目录
unzip_path = "unzip"
# 如果解压目录不存在则创建
if not os.path.exists(unzip_path):
    os.mkdir(unzip_path)
with ZipFile("test1/test.pptx") as f:
    for file in f.namelist():
        if file.startswith("ppt/media/"):
            f.extract(file, path=unzip_path)
复制代码

这里我们就是添加了一个解压目录的创建,这样我们执行的时候就不会因为目录不存在而报错了。

另外,其实我们手动解压然后提取PPT中的图片也是很方便的,也并不会比程序慢。


目录
相关文章
|
2月前
|
存储 人工智能 自然语言处理
从“代码补全”到“知识对齐”:Qoder Repo Wiki 迎来重磅升级
随着大模型发展,AI Coding正从辅助编码迈向自主编程。Qoder通过显性化知识、增强上下文、Spec驱动与智能体协作,提升研发效率与透明度,应对软件复杂性挑战,推动人与AI高效协同。
从“代码补全”到“知识对齐”:Qoder Repo Wiki 迎来重磅升级
|
存储 缓存 关系型数据库
【MySQL进阶-08】深入理解innodb存储格式,双写机制,buffer pool底层结构和淘汰策略
【MySQL进阶-08】深入理解innodb存储格式,双写机制,buffer pool底层结构和淘汰策略
1301 0
|
4月前
|
人工智能 IDE 前端开发
写给尊贵的 Tare Pro 用户的喂饭级 IOS APP 开发指南
本文介绍了如何利用 AI IDE Trae,从零开始快速开发一个 iOS 应用《回声》。通过 AI 辅助完成需求梳理、原型设计、编码与调试,展示了 AI 在整个开发流程中的强大助力。
542 0
|
IDE Java 开发工具
Spring Boot:加速Java后端开发的现代化利器
在当今快速迭代的软件开发环境中,Spring Boot 已成为Java后端开发领域的首选框架。作为Spring家族的一员,它以“约定优于配置”的设计理念,极大地简化了传统Spring应用的配置和部署过程,让开发者能够更加专注于业务逻辑的实现。本文将探讨Spring Boot的核心优势,并通过一个简单的示例展示如何快速启动一个基于Spring Boot的Java Web应用。
534 1
|
JavaScript 前端开发 API
|
JSON 供应链 API
1688 商品采集数据,1688 商品详情数据接口
1688开放平台提供的商品详情数据接口,允许第三方开发者获取平台上商品的详细信息,助力企业实现精准市场分析、优化供应链管理和个性化客户服务。开发者需注册账号并申请权限,通过HTTP请求调用接口,获取JSON格式的数据,涵盖商品基本信息、图片、属性及店铺信息。使用时需注意权限管理、调用频率限制及数据异常处理,遵循平台规定,确保合规使用。如需详细了解,可参考官方文档或联系技术支持。
2319 1
|
Java C语言 网络架构
全球网络是如何互联的?
全球网络是如何互联的?
|
算法 安全 网络协议
一文搞懂SSL/TLS
一文搞懂SSL/TLS
1235 0
一文搞懂SSL/TLS
|
数据采集 Java Python
python并发编程:Python在FastAPI服务中使用多进程池加速程序运行
python并发编程:Python在FastAPI服务中使用多进程池加速程序运行
2155 0