谈一谈|Word文档图片的提取

简介: 谈一谈|Word文档图片的提取


1 问题分析

docx格式的文件本质上是一个ZIP文件,因此一个docx文件的后缀改为zip后是可以用解压工具打开的。而将一个docx文件的后缀改为zip后就可以发现有一个文件夹储存了所有的Word文档图片。

 

1. 1更改文件后缀名

docx文件的后缀改为ZIP后:

1. 2 zip文件目录

可以看到一个固定的存放图片文件夹:/word/media/

1. 3图片存放目录

找到了图片存放的固定的路径,那么只需要修改文件后缀名,再将图片拷贝出来,最后把文件从zip改回docx即可。


2 实现代码

import zipfile

 

docx_path = "…"    # docx文件路径

image_path = "…"   # 图片存放路径

 

docx = zipfile.ZipFile(docx_path)

 

for info in docx.infolist():

    if  info.filename.endswith((".png", ".jpeg",  ".gif")):

         docx.extract(info.filename, image_path)


3 运行结果

原文件包含的图片:


3. 1原文件包含的图片

提取的图片:

3. 2提取的图片


目录
相关文章
|
8月前
|
Python
ChatGPT 调教指南:从 PDF 提取标题并保存
ChatGPT 调教指南:从 PDF 提取标题并保存
159 0
|
6月前
|
算法 JavaScript
「AIGC算法」将word文档转换为纯文本
使用Node.js模块`mammoth`和`html-to-text`,该代码示例演示了如何将Word文档(.docx格式)转换为纯文本以适应AIGC的文本识别。流程包括将Word文档转化为HTML,然后进一步转换为纯文本,进行格式调整,并输出到控制台。转换过程中考虑了错误处理。提供的代码片段展示了具体的实现细节,包括关键库的导入和转换函数的调用。
60 0
|
8月前
【图片公式识别】图片公式转Word与LaTeX文档:智能识别与转换
【图片公式识别】图片公式转Word与LaTeX文档:智能识别与转换
311 4
|
8月前
|
机器学习/深度学习 文字识别 数据安全/隐私保护
Python实现从PDF和图片提取文字的方法总结
Python实现从PDF和图片提取文字的方法总结
496 0
|
程序员 开发者 Python
小白学Python:提取Word中的所有图片,只需要1行代码
小白学Python:提取Word中的所有图片,只需要1行代码
105 0
【Word】docx转doc后公式转换为图片不清晰/模糊
【Word】docx转doc后公式转换为图片不清晰/模糊
442 0
|
索引 Python
【VBA脚本】提取word文档中所有批注的信息和待解决状态
【VBA脚本】提取word文档中所有批注的信息和待解决状态
269 0
【VBA脚本】提取word文档中所有批注的信息和待解决状态
|
数据安全/隐私保护 Python
【文档操作】提取PPT中的图片
今天要带大家实现的是PPT图片的提取。在我们学习工作中,PPT的使用还是非常频繁的,但是自己做PPT是很麻烦的,所以就需要用到别人的模板或者素材,这个时候提取PPT图片就可以减少我们很多工作。
245 0
|
文字识别 Python
提取图片文字,python三行代码足矣!
简介:身处数据爆炸增长的信息时代,各种各样的数据都飞速增长,以图片的形式出现的数据更是数不胜数。有时候,我们想要提取图片中的文字,需要一个一个地敲打键盘输入。但如果你 使用python,三行代码足矣!
提取图片文字,python三行代码足矣!
|
自然语言处理
NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档
NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档
NLP:两种方法(自定义函数和封装函数)实现提取两人对话内容(***分隔txt文档),并各自保存为txt文档