谈一谈|Word文档图片的提取

简介: 谈一谈|Word文档图片的提取


1 问题分析

docx格式的文件本质上是一个ZIP文件,因此一个docx文件的后缀改为zip后是可以用解压工具打开的。而将一个docx文件的后缀改为zip后就可以发现有一个文件夹储存了所有的Word文档图片。

 

1. 1更改文件后缀名

docx文件的后缀改为ZIP后:

1. 2 zip文件目录

可以看到一个固定的存放图片文件夹:/word/media/

1. 3图片存放目录

找到了图片存放的固定的路径,那么只需要修改文件后缀名,再将图片拷贝出来,最后把文件从zip改回docx即可。


2 实现代码

import zipfile

 

docx_path = "…"    # docx文件路径

image_path = "…"   # 图片存放路径

 

docx = zipfile.ZipFile(docx_path)

 

for info in docx.infolist():

    if  info.filename.endswith((".png", ".jpeg",  ".gif")):

         docx.extract(info.filename, image_path)


3 运行结果

原文件包含的图片:


3. 1原文件包含的图片

提取的图片:

3. 2提取的图片


目录
相关文章
|
3月前
|
Python
ChatGPT 调教指南:从 PDF 提取标题并保存
ChatGPT 调教指南:从 PDF 提取标题并保存
54 0
|
1月前
|
机器学习/深度学习 文字识别 数据安全/隐私保护
Python实现从PDF和图片提取文字的方法总结
Python实现从PDF和图片提取文字的方法总结
54 0
|
7月前
|
程序员 开发者 Python
小白学Python:提取Word中的所有图片,只需要1行代码
小白学Python:提取Word中的所有图片,只需要1行代码
|
8月前
|
自然语言处理 Python
Python读取Word/PPT文件文本内容和图片内容
读取某个指定路径下的Word/PPT文件,并将其中所有的文本内容生成一个TXT文件,将所有的图片内容保存在一个文件夹里
259 0
|
10月前
【Word】docx转doc后公式转换为图片不清晰/模糊
【Word】docx转doc后公式转换为图片不清晰/模糊
267 0
|
11月前
|
自然语言处理 搜索推荐 Python
jieba分词器(应用及字典的补充)及文档高频词提取实战
jieba分词器(应用及字典的补充)及文档高频词提取实战
|
11月前
|
Web App开发 开发者
GNE v0.04版更新,支持提取正文图片与源代码
GNE v0.04版更新,支持提取正文图片与源代码
110 0
|
XML 存储 JSON
2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等
2.基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等
|
索引 Python
【VBA脚本】提取word文档中所有批注的信息和待解决状态
【VBA脚本】提取word文档中所有批注的信息和待解决状态
176 0
【VBA脚本】提取word文档中所有批注的信息和待解决状态
|
数据安全/隐私保护 Python
【文档操作】提取PPT中的图片
今天要带大家实现的是PPT图片的提取。在我们学习工作中,PPT的使用还是非常频繁的,但是自己做PPT是很麻烦的,所以就需要用到别人的模板或者素材,这个时候提取PPT图片就可以减少我们很多工作。
149 0